Mercor에서 AI 계약자 4만 명의 음성 샘플 4T

▲

GN⁺ 22시간전 | parent | ★ favorite | on: Mercor에서 AI 계약자 4만 명의 음성 샘플 4TB 유출(app.oravys.com)

Hacker News 의견들

아이러니가 큼. AI 회사에 내 음성이 넘어간 피해를 줄이려면 또 다른 AI 회사에 음성을 보내라니 황당함
Mercor도 아마 명시적 동의를 약관에 넣어 법적으로 빠져나갈 구멍은 만들어뒀을 가능성이 커 보임
- 무료 분석 제안보다 더 씁쓸한 건, 애초에 Mercor 계약 구조 자체가 정확히 그 패턴이었다는 점임
  스튜디오급 음성 녹음과 신분증 스캔을 넘겨야 했지만 실제 데이터 라벨링 업무엔 둘 다 필요 없었고, 동의는 약관 깊숙이 묻혀 있었으며 사람들은 급여가 필요해 그냥 클릭할 수밖에 없었음
  이제 4만 명이 생체정보는 비밀번호가 아니라는 것을 배웠고, 목소리는 교체할 수 없다는 사실도 같이 드러남
- CYA라는 표현은 현실을 너무 가볍게 포장하는 말처럼 보임
  이상적으로 법은 폭력 대신 분쟁을 해결하는 접근 가능한 수단이어야 하지만, 지금은 개인 위에 기업 권력을 유지하는 카프카식 시스템으로 더 자주 쓰이고 있음
  실상은 법적 구제 수단을 거의 전부 막아버리는 쪽에 가깝고, 다른 대응 수단은 여러 거주지 유지나 경호 고용처럼 지속적으로 큰 비용이 듦
  폭력을 옹호하는 게 아니라, 더 평평하고 접근 가능한 법 체계가 필요하다는 뜻임
- 지난주 WSJ 기사를 보면 Mercor는 계약의 회색지대를 노리는 듯함. 음성만의 문제가 아니었음
  많은 사람이 사실상 자기 자신과 자기 회사까지 도청한 셈이었음
  Mercor 계약자들이 Insightful를 통한 데이터 수집 과잉을 주장하더라도, 회사 입장에선 꽤 영리한 구조이기도 함. 불만을 크게 제기하면 본업을 잃을 뿐 아니라 고의적 위법행위로 무제한 책임까지 떠안을 수 있다는 두려움이 있기 때문임
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- Airbnb 계정을 지우려 했을 때 신분증 앞뒤 스캔을 요구해서 그냥 포기했고, 그 뒤로는 그 회사를 다시 쓰지 않음
- 신원 도용 합의금을 받으려면 본인 확인부터 해야 하는 상황과 비슷하게 들림
글쓴이임. 이번 달 초 Lapsus$가 유출 사이트에 올린 Mercor 아카이브를 보고 이 글을 썼음
특히 눈에 띈 건 음성 샘플과 신분증 스캔의 결합이었음. 보통 유출은 둘 중 하나인데, 이번 건은 딥페이크에 바로 쓸 수 있는 키트를 통째로 넘긴 셈임
공격자가 이 조합으로 실제 무엇을 할 수 있는지, 예를 들어 은행 음성인증 우회, Arup식 영상통화 사칭, 보험 사기, 그리고 유출된 계약자들이 따라야 할 5단계 체크리스트를 실용적으로 정리하려 했음
포렌식 탐지 쪽도 이야기 가능함. AudioSeal 워터마크, AASIST 안티스푸핑, 그리고 음성 생체정보가 대규모로 유출되기 시작하면 탐지 지형이 어떻게 바뀌는지도 중요함
- 재밌는 자료였음. Mercor는 사건 이후 공개 입장을 거의 내지 않았음
  소셜 미디어 글이 공식 발표는 아닐 수 있지만, 캘리포니아에 제출된 이 유출 통지 샘플은 찾았음
  우리 입법자들이 이번엔 데이터 프라이버시를 진지하게 다룰지 지켜보게 됨
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- HSBC가 몇 년 전에 음성 인증을 제안했을 때 바로 거절했음
  Apple 기기에서도 생체정보는 안 쓰고 6자리 PIN만 씀
  처음부터 멍청한 아이디어였다고 봄
  편의성과 보안을 바꾸면 편의성을 택하지 않는 사람을 편집증 취급하다가, 사고가 실제로 터진 뒤에도 여전히 또 다른 이유로 편집증 취급하는 흐름이 반복됨
존재하지 않는 데이터만이 도난이나 유출을 당하지 않음. 사용자와 회사 모두에게 뼈아픈 교훈임
독일어에는 이런 개념을 가리키는 Datensparsamkeit라는 말도 있음. 데이터를 아껴 쓰라는 뜻에 가까움
- 굳이 독일어에 이런 말이 있는 데는 역사적 맥락도 있음
  1970년대 독일에선 프라이버시와 데이터 저장을 두고 큰 논쟁이 있었고, Datenschatten 같은 표현도 쓰였음
  이런 전통은 아마 2차대전 이후의 반성과 행정 체계에 대한 성찰에서 나온 듯함
- LLM 이전에는 불필요한 데이터는 그냥 책임과 위험만 키운다고 충분히 주장할 수 있었음
  지금은 다들 뭐든지 AI용 데이터로 더 모으려 듦
- 데이터는 물리적 물건이 아니니 엄밀히 말해 훔쳐지는 것은 아님
  복사되거나 지워질 수 있고, 때로는 둘 다 동시에 일어남
  데이터가 진짜 사라졌다고 할 수 있는 건 마지막 사본까지 지워졌을 때뿐임
- 그런데 기업들은 이 교훈을 거의 배우지 않음
  엔터프라이즈 위협 모델에는 자기 사용자들도 들어가고, 운영 방식은 그 위협에 대해 가능한 한 많은 정보를 계속 쌓아두는 쪽임
- 이미 공개된 데이터는 유출이나 도난 개념이 성립하기 어려움
  예를 들어 Mozilla의 Common Voice 데이터셋은 누가 훔쳐갈 수 있는 성격이 아님
어제 휴스턴에서 전직 에이전시 인사들과 GS15 출신들 근처에 있었는데, 이스라엘 사이버보안 쪽이 지난 20년 동안 음성사서함 공급망 어딘가에 끼어들어 모두의 보이스메일을 가져왔다는 설명을 들었음
요즘은 오디오 데이터를 활용할 수 있는 방식이 정말 많아져서 섬뜩함
그럼 다들 이제 목소리를 교체하면 되는 건가 싶음
농담이지만, 내가 아는 평범한 사람들 대부분은 그냥 더 쉬우니까 생체정보를 넘김
생체정보를 영구 비밀번호 같은 식으로 브랜딩해서, 은행 계좌 접근이나 Disney World 입장 때 사람들이 정확히 뭘 내주고 있는지 이해하게 만들어야 함
- 기능적으로 생체정보는 비밀번호보다 사용자 이름에 더 가까움
  지문, DNA, 홍채, 걸음걸이 같은 건 거의 바꿀 수 없는 영구 식별자이고, 이메일 주소처럼 세상에 계속 노출됨
  게다가 미국 법에선 경찰이 지문 제시는 강제할 수 있지만, 비밀번호는 수정헌법 5조 보호를 받음
- 더 쉬우니까라고 말하는 사람들은 사고방식 자체가 다름
  그들은 사회적 신뢰와 그럴듯한 부인 가능성 속에서 잘 살아가고, 자기 잘못만 아니면 무슨 일이 생겨도 크게 개의치 않는 편임
  스스로 위험에 노출되는 것과 자기 책임이 되는 것을 같은 것으로 보지 않음
  어떤 의미에선 조금 부럽기도 함. 세상이 원래 그래야 한다는 전제로 사는 셈이니까
- 내가 은행에서 일할 때 forever passwords라는 표현은 오히려 긍정적으로 쓰였음
  고객이 잊지 않고 지원도 덜 필요하다는 뜻이어서, 많은 사람은 이 표현을 좋은 의미로 받아들일 수 있음
Mercor가 4만 명 계약자를 속이고 데이터 보안도 엉망으로 했다는 건 정말 나쁨
이런 일엔 더 강한 책임이 따라야 함
- 지금 벌어지는 일은, 이 회사를 몰랐던 무지한 CTO들이 이제 이름을 알게 된다는 것임
  그래서 이번 난리의 결과가 오히려 Mercor의 추가 사업으로 이어질 가능성도 있어 보임
  Crowdstrike 때도 비슷한 걸 봤음
- 최소한 음성 지문을 수집한다면 일반적인 학습 데이터보다 훨씬 엄격한 동의, 보관, 보안 요건이 붙어야 함
공격자가 누군가의 깨끗한 낭독 30초 음성과 운전면허증 스캔을 가지면 할 수 있는 일이 꽤 많음
내 은행과 증권사만 봐도 음성 ID를 쓰고 있음
이 회사의 목적 자체가 그런 데이터를 빼내는 것처럼 보이기도 함
- 개인정보 처리방침을 보면 더 분명함
  영상, 음성 등 이것저것 대거 수집하고 있음
이게 사실이라면 더 큰 문제는 유출 그 자체가 아닐 수도 있음
음성 + 신분증만으로 누군가를 완전히 사칭할 수 있는 세상으로 조용히 넘어가고 있는데, 대부분의 시스템은 아직 그 현실을 전제로 설계되지 않았음
여기엔 보기 싫은 노동 문제도 있음
이런 시스템을 라벨링하고 학습시키는 사람들이 정작 데이터 파이프라인이 공격 표면으로 바뀔 때 가장 덜 보호받는 위치에 있음