1P by GN⁺ 20시간전 | ★ favorite | 댓글 1개
  • 음성 생체정보정부 발급 신분증이 한 줄의 데이터로 묶인 대규모 유출이 발생했고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 AI 계약자가 포함됨
  • 계약자당 평균 2~5분 분량의 깨끗한 녹음이 담겨 있어, 약 15초 참조 오디오만으로도 가능한 음성 복제의 임계치를 크게 넘김
  • 유출 데이터는 음성 클론과 검증된 신분을 함께 제공해 은행 음성 인증 우회, 직장 대상 vishing, 딥페이크 화상 통화, 보험 청구 사기, 가족 사칭 긴급 전화에 악용될 수 있음
  • Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올렸다면 이를 유출된 비밀번호처럼 다뤄야 하며, 공개 음성 삭제, 코드워드 설정, 음성 프린트 재등록과 비활성화가 필요함
  • 의심 음성은 포렌식 검사로 코덱 불일치, 호흡 패턴, 마이크로 지터, 포먼트 궤적, 실내 음향 일관성, 운율과 발화 속도 이상을 확인해야 하며, 음성 인증 전반의 취약성이 더 크게 드러남

침해 개요

  • 2026년 4월 4일 Lapsus$가 Mercor를 유출 사이트에 게시했고, 유출 규모는 약 4TB로 전해짐
  • 유출 아카이브에는 음성 생체정보와 동일 인물의 정부 발급 신분증이 함께 묶여 있었고, 유출된 샘플 인덱스 기준으로 4만 명이 넘는 계약자가 포함됨
  • 대상자는 AI 학습용 데이터 라벨링, 낭독 문장 녹음, 검증 통화 수행을 위해 등록한 계약자였음
  • 게시 후 10일 안에 계약자 5건의 소송이 제기됐고, 음성 프린트를 "훈련 데이터"로 수집하면서 이것이 영구적 생체식별자라는 점을 명확히 알리지 않았다는 주장이 담김

왜 이번 유출이 다른가

  • 지난 10년간의 음성 유출은 대체로 신원 연결이 어려운 통화 녹음 유출이거나, 오디오가 없는 신분증·셀피 유출로 나뉘었음
  • Mercor의 등록 절차는 여권 또는 운전면허 스캔, 웹캠 셀피, 조용한 환경에서의 스크립트 낭독 음성 녹음을 한 줄의 데이터로 결합했음
  • 이 결합은 합성 음성 복제 서비스가 입력으로 필요로 하는 형태와 정확히 맞물림
  • 2026년 2월 Wall Street Journal 보도 기준으로 시중 도구는 고품질 음성 복제에 약 15초의 깨끗한 참조 오디오만 있으면 됨
  • Mercor 녹음은 계약자당 평균 2~5분 분량의 스튜디오급 음성으로 전해졌고, 복제 임계치를 크게 넘김
  • 여기에 검증된 신분증 문서가 결합되면, 공격자는 음성 클론과 이를 실제 공격에 투입할 자격 정보를 함께 갖게 됨

탈취된 음성 데이터로 가능한 공격

  • 은행 인증 우회

    • 여러 미국·영국 은행은 여전히 음성 프린트 매칭을 두 요소 중 하나로 취급함
    • 계좌 소유자 음성 클론이 도전 문구를 읽으면 오디오 관문을 통과할 수 있고, 남는 것은 같은 유출 데이터셋에서 나올 수 있는 지식형 질문뿐임
  • 직장 대상 vishing

    • HR이나 재무 부서에 직원인 척 전화해 급여 지급처 변경, 송금 요청, 워크스테이션 잠금 해제를 시도할 수 있음
    • Krebs on Security 아카이브에는 2023년 이후 확인된 사례가 24건 넘게 쌓여 있음
  • 딥페이크 화상 통화

    • 2024년 Arup에서는 다중 인물 딥페이크 화상 통화 뒤 재무 담당자가 약 2,500만 달러를 송금함
    • 당시 음성과 얼굴은 공개 영상으로 만들었지만, Mercor 유출물은 공개 영상보다 나은 스튜디오 오디오검증된 신분증을 함께 담고 있음
  • 보험 청구 사기

    • Pindrop는 2025년 내내 보험 콜센터 대상 합성 음성 공격이 전년 대비 475% 증가했다고 집계함
    • 전화로 처리되는 자동차, 생명, 장애 청구가 주요 표적임
  • 가족 사칭 긴급 전화 사기

    • FBI 인터넷 범죄 신고 센터는 2026년 한 해 동안 60세 이상 피해자의 손실을 23억 달러로 집계함
    • 가장 빠르게 커진 범주는 친척이 위험에 처했다고 주장하는 긴급 사칭 전화였음

음성 오남용 확인과 즉시 대응

  • Mercor나 2025년까지 운영된 다른 AI 학습 중개업체에 음성 샘플을 올린 적이 있다면, 유출된 비밀번호처럼 다뤄야 함
  • 음성 자체는 교체할 수 없지만, 음성이 열 수 있는 인증 수단은 바꿀 수 있음
  • 공개 오디오 흔적 점검

    • YouTube, 팟캐스트 디렉터리, 과거 Zoom 녹화에서 공개적으로 인덱싱되는 음성 샘플을 찾아야 함
    • 내릴 수 있는 공개 음성은 최대한 삭제하는 편이 나음
    • 공개 참조 오디오가 적을수록 공격자의 클론 견고성도 낮아짐
  • 가족·금융 연락처와 구두 코드워드 설정

    • 녹음된 적도 채팅에 입력된 적도 없는 문구를 골라야 함
    • 자금 처리를 대신하는 사람들에게 미리 공유해야 함
    • 송금을 요구하는 통화에서는 코드워드를 필수 절차로 두는 편이 안전함
  • 음성 프린트가 쓰이는 곳 재등록

    • Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, 은행 음성 프린트 등록은 삭제 후 교체 가능함
    • 유출 샘플과 다른 음향 환경에서 새 녹음으로 다시 등록하는 편이 바람직함
  • 은행의 음성 프린트 인증 비활성화

    • 서면으로 음성 프린트를 인증 요소에서 빼 달라고 요청할 수 있음
    • 앱 토큰이나 하드웨어 키와 지식형 요소를 결합한 다중 요소 인증을 요구하는 편이 나음
    • 많은 은행이 음성을 주 인증 요소에서 제외하는 선택지를 제공하지만 이를 널리 알리지는 않음
  • 의심 녹음의 포렌식 검사

    • 아는 사람이라고 하면서 돈, 접근 권한, 긴급 대응을 요구하는 오디오 파일이나 음성 메시지를 받으면 바로 행동하지 말고 딥페이크 탐지기에 돌려보는 편이 나음
    • ORAVYS는 침해 피해자가 제출한 최초 3개 샘플에 대해 무료 검사를 제공함
    • Run a forensic check →

포렌식 분석 체크리스트

  • 포렌식 분석은 먼저 합성 음성의 흔한 오류를 찾는 데서 시작됨
  • 코덱 불일치는 전화 통화라고 하는 오디오의 스펙트럼 서명이 알려진 전화 코덱과 맞지 않을 때 드러남
  • 호흡 패턴은 실제 화자가 문장 길이와 폐활량에 따라 들이쉬는 지점과 달리, 합성 음성은 호흡을 건너뛰거나 잘못된 음절 경계에 넣으면서 어긋남
  • 마이크로 지터는 자연 성대 진동의 미세한 불규칙성을 뜻하며, 생성 오디오는 밀리초 수준에서 지나치게 깨끗한 경우가 많음
  • 포먼트 궤적은 실제 입 조음기관이 만드는 모음 전이 경로를 따르는데, 복제 음성은 포먼트 사이를 물리적으로 불가능한 방식으로 건너뛰기도 함
  • 실내 음향 일관성은 파일 처음부터 끝까지 잔향 특성이 같아야 하는데, 생성 오디오는 건조하고 이어붙인 주변 맥락은 잔향이 있는 식으로 어긋날 수 있음
  • 운율 평탄화는 합성 음성이 실제 화자보다 음높이와 에너지 변화 폭이 좁은 데서 나타남
  • 발화 속도 안정성은 실제 사람의 가감속과 달리, 생성 음성은 긴 구간에서 메트로놈처럼 일정한 속도를 유지하는 데서 드러남

ORAVYS의 검사 방식

  • 제출된 각 샘플에 대해 3,000개 이상 포렌식 엔진을 병렬 실행하며, 신호·운율·조음·코덱·출처 영역을 함께 다룸
  • AudioSeal 워터마크 탐지는 워터마크가 유지된 경우 주요 상용 음성 모델이 생성한 파일을 표시할 수 있고, 워터마크가 있으면 결정적 양성 결과를 제공함
  • 안티 스푸핑 모듈은 ASVspoof 공개 벤치마크를 바탕으로 훈련됐고, 샘플이 녹음이 아니라 합성됐을 가능성을 점수화함
  • RGPD 준수 생체정보 처리를 적용하며, 명시적 동의 없이는 오디오를 상용 모델 학습에 쓰지 않고 정의된 보존 일정에 따라 삭제함
  • Mercor 계약자이면서 이미 음성이 유통 중일 수 있다면 최초 의심 샘플 3개를 무료로 분석해 줌
  • 무료 보고서에는 워터마크 탐지, 안티 스푸핑 점수, 위의 아티팩트 체크리스트가 포함됨
  • 카드 정보도 필요 없고 사용량 제한 장벽도 없다고 밝힘

출처 및 제한

  • 출처로는 Lapsus$ 유출 사이트 인덱스, 2026년 2월 Wall Street Journal, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, Krebs on Security 아카이브가 적시됨
  • ORAVYS는 유출 데이터셋을 호스팅하거나 재배포하지 않으며, 이를 입력값으로도 받지 않음
Hacker News 의견들
  • 아이러니가 큼. AI 회사에 내 음성이 넘어간 피해를 줄이려면 또 다른 AI 회사에 음성을 보내라니 황당함
    Mercor도 아마 명시적 동의를 약관에 넣어 법적으로 빠져나갈 구멍은 만들어뒀을 가능성이 커 보임

    • 무료 분석 제안보다 더 씁쓸한 건, 애초에 Mercor 계약 구조 자체가 정확히 그 패턴이었다는 점임
      스튜디오급 음성 녹음신분증 스캔을 넘겨야 했지만 실제 데이터 라벨링 업무엔 둘 다 필요 없었고, 동의는 약관 깊숙이 묻혀 있었으며 사람들은 급여가 필요해 그냥 클릭할 수밖에 없었음
      이제 4만 명이 생체정보는 비밀번호가 아니라는 것을 배웠고, 목소리는 교체할 수 없다는 사실도 같이 드러남
    • CYA라는 표현은 현실을 너무 가볍게 포장하는 말처럼 보임
      이상적으로 법은 폭력 대신 분쟁을 해결하는 접근 가능한 수단이어야 하지만, 지금은 개인 위에 기업 권력을 유지하는 카프카식 시스템으로 더 자주 쓰이고 있음
      실상은 법적 구제 수단을 거의 전부 막아버리는 쪽에 가깝고, 다른 대응 수단은 여러 거주지 유지나 경호 고용처럼 지속적으로 큰 비용이 듦
      폭력을 옹호하는 게 아니라, 더 평평하고 접근 가능한 법 체계가 필요하다는 뜻임
    • 지난주 WSJ 기사를 보면 Mercor는 계약의 회색지대를 노리는 듯함. 음성만의 문제가 아니었음
      많은 사람이 사실상 자기 자신과 자기 회사까지 도청한 셈이었음
      Mercor 계약자들이 Insightful를 통한 데이터 수집 과잉을 주장하더라도, 회사 입장에선 꽤 영리한 구조이기도 함. 불만을 크게 제기하면 본업을 잃을 뿐 아니라 고의적 위법행위로 무제한 책임까지 떠안을 수 있다는 두려움이 있기 때문임
      https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
    • Airbnb 계정을 지우려 했을 때 신분증 앞뒤 스캔을 요구해서 그냥 포기했고, 그 뒤로는 그 회사를 다시 쓰지 않음
    • 신원 도용 합의금을 받으려면 본인 확인부터 해야 하는 상황과 비슷하게 들림
  • 글쓴이임. 이번 달 초 Lapsus$가 유출 사이트에 올린 Mercor 아카이브를 보고 이 글을 썼음
    특히 눈에 띈 건 음성 샘플과 신분증 스캔의 결합이었음. 보통 유출은 둘 중 하나인데, 이번 건은 딥페이크에 바로 쓸 수 있는 키트를 통째로 넘긴 셈임
    공격자가 이 조합으로 실제 무엇을 할 수 있는지, 예를 들어 은행 음성인증 우회, Arup식 영상통화 사칭, 보험 사기, 그리고 유출된 계약자들이 따라야 할 5단계 체크리스트를 실용적으로 정리하려 했음
    포렌식 탐지 쪽도 이야기 가능함. AudioSeal 워터마크, AASIST 안티스푸핑, 그리고 음성 생체정보가 대규모로 유출되기 시작하면 탐지 지형이 어떻게 바뀌는지도 중요함

    • 재밌는 자료였음. Mercor는 사건 이후 공개 입장을 거의 내지 않았음
      소셜 미디어 글이 공식 발표는 아닐 수 있지만, 캘리포니아에 제출된 이 유출 통지 샘플은 찾았음
      우리 입법자들이 이번엔 데이터 프라이버시를 진지하게 다룰지 지켜보게 됨
      https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
    • HSBC가 몇 년 전에 음성 인증을 제안했을 때 바로 거절했음
      Apple 기기에서도 생체정보는 안 쓰고 6자리 PIN만 씀
      처음부터 멍청한 아이디어였다고 봄
      편의성과 보안을 바꾸면 편의성을 택하지 않는 사람을 편집증 취급하다가, 사고가 실제로 터진 뒤에도 여전히 또 다른 이유로 편집증 취급하는 흐름이 반복됨
  • 존재하지 않는 데이터만이 도난이나 유출을 당하지 않음. 사용자와 회사 모두에게 뼈아픈 교훈임
    독일어에는 이런 개념을 가리키는 Datensparsamkeit라는 말도 있음. 데이터를 아껴 쓰라는 뜻에 가까움

    • 굳이 독일어에 이런 말이 있는 데는 역사적 맥락도 있음
      1970년대 독일에선 프라이버시와 데이터 저장을 두고 큰 논쟁이 있었고, Datenschatten 같은 표현도 쓰였음
      이런 전통은 아마 2차대전 이후의 반성과 행정 체계에 대한 성찰에서 나온 듯함
    • LLM 이전에는 불필요한 데이터는 그냥 책임과 위험만 키운다고 충분히 주장할 수 있었음
      지금은 다들 뭐든지 AI용 데이터로 더 모으려 듦
    • 데이터는 물리적 물건이 아니니 엄밀히 말해 훔쳐지는 것은 아님
      복사되거나 지워질 수 있고, 때로는 둘 다 동시에 일어남
      데이터가 진짜 사라졌다고 할 수 있는 건 마지막 사본까지 지워졌을 때뿐임
    • 그런데 기업들은 이 교훈을 거의 배우지 않음
      엔터프라이즈 위협 모델에는 자기 사용자들도 들어가고, 운영 방식은 그 위협에 대해 가능한 한 많은 정보를 계속 쌓아두는 쪽임
    • 이미 공개된 데이터는 유출이나 도난 개념이 성립하기 어려움
      예를 들어 Mozilla의 Common Voice 데이터셋은 누가 훔쳐갈 수 있는 성격이 아님
  • 어제 휴스턴에서 전직 에이전시 인사들과 GS15 출신들 근처에 있었는데, 이스라엘 사이버보안 쪽이 지난 20년 동안 음성사서함 공급망 어딘가에 끼어들어 모두의 보이스메일을 가져왔다는 설명을 들었음
    요즘은 오디오 데이터를 활용할 수 있는 방식이 정말 많아져서 섬뜩함

  • 그럼 다들 이제 목소리를 교체하면 되는 건가 싶음
    농담이지만, 내가 아는 평범한 사람들 대부분은 그냥 더 쉬우니까 생체정보를 넘김
    생체정보를 영구 비밀번호 같은 식으로 브랜딩해서, 은행 계좌 접근이나 Disney World 입장 때 사람들이 정확히 뭘 내주고 있는지 이해하게 만들어야 함

    • 기능적으로 생체정보는 비밀번호보다 사용자 이름에 더 가까움
      지문, DNA, 홍채, 걸음걸이 같은 건 거의 바꿀 수 없는 영구 식별자이고, 이메일 주소처럼 세상에 계속 노출됨
      게다가 미국 법에선 경찰이 지문 제시는 강제할 수 있지만, 비밀번호는 수정헌법 5조 보호를 받음
    • 더 쉬우니까라고 말하는 사람들은 사고방식 자체가 다름
      그들은 사회적 신뢰와 그럴듯한 부인 가능성 속에서 잘 살아가고, 자기 잘못만 아니면 무슨 일이 생겨도 크게 개의치 않는 편임
      스스로 위험에 노출되는 것과 자기 책임이 되는 것을 같은 것으로 보지 않음
      어떤 의미에선 조금 부럽기도 함. 세상이 원래 그래야 한다는 전제로 사는 셈이니까
    • 내가 은행에서 일할 때 forever passwords라는 표현은 오히려 긍정적으로 쓰였음
      고객이 잊지 않고 지원도 덜 필요하다는 뜻이어서, 많은 사람은 이 표현을 좋은 의미로 받아들일 수 있음
  • Mercor가 4만 명 계약자를 속이고 데이터 보안도 엉망으로 했다는 건 정말 나쁨
    이런 일엔 더 강한 책임이 따라야 함

    • 지금 벌어지는 일은, 이 회사를 몰랐던 무지한 CTO들이 이제 이름을 알게 된다는 것임
      그래서 이번 난리의 결과가 오히려 Mercor의 추가 사업으로 이어질 가능성도 있어 보임
      Crowdstrike 때도 비슷한 걸 봤음
    • 최소한 음성 지문을 수집한다면 일반적인 학습 데이터보다 훨씬 엄격한 동의, 보관, 보안 요건이 붙어야 함
  • 공격자가 누군가의 깨끗한 낭독 30초 음성과 운전면허증 스캔을 가지면 할 수 있는 일이 꽤 많음
    내 은행과 증권사만 봐도 음성 ID를 쓰고 있음

  • 이 회사의 목적 자체가 그런 데이터를 빼내는 것처럼 보이기도 함

    • 개인정보 처리방침을 보면 더 분명함
      영상, 음성 등 이것저것 대거 수집하고 있음
  • 이게 사실이라면 더 큰 문제는 유출 그 자체가 아닐 수도 있음
    음성 + 신분증만으로 누군가를 완전히 사칭할 수 있는 세상으로 조용히 넘어가고 있는데, 대부분의 시스템은 아직 그 현실을 전제로 설계되지 않았음

  • 여기엔 보기 싫은 노동 문제도 있음
    이런 시스템을 라벨링하고 학습시키는 사람들이 정작 데이터 파이프라인이 공격 표면으로 바뀔 때 가장 덜 보호받는 위치에 있음