1P by GN⁺ 14시간전 | ★ favorite | 댓글 1개
  • 미국 법무부가 Epstein Files Transparency Act에 따라 공개한 PDF 문서들을 대상으로, 파일 구조와 구문을 중심으로 한 디지털 포렌식 분석이 수행됨
  • 분석 결과, 공개된 EFTA 데이터세트 01–07의 PDF들은 올바르게 편집(redaction) 되어 있으며, 소셜미디어에서 제기된 “복구 가능한 편집” 주장은 사실이 아님
  • 모든 PDF는 암호화·주석·JavaScript·첨부파일이 없고, 대부분 스캔 이미지 기반으로 OCR이 적용된 형태이며, 일부 파일에는 숨겨진 메타데이터(dictionary) 가 존재함
  • Bates 번호 부여, 비압축 객체 스트림, 잘못된 버전 표기, 누락된 주석 처리 등 기술적 세부사항이 발견되었으나, 파일 유효성에는 큰 영향이 없음
  • 이 사례는 PDF 포렌식의 복잡성과 도구 신뢰성 한계를 보여주며, 민감 문서 공개 전 정확한 정제·편집 워크플로우의 중요성을 강조함

DoJ 공개 데이터 개요

  • 법무부는 2025년 12월 19일 7개의 ZIP 아카이브(총 2.97GB)를 공개, 내부에는 4,085개의 PDF, 1개의 AVI 파일, 각 세트별 .DAT.OPT 데이터 파일 포함
    • PDF 파일명은 EFTA00000001.pdf부터 EFTA00009664.pdf까지 순차 구성
    • 5,879개의 PDF가 아직 미공개 상태로 확인됨
  • PDF들은 대부분 스캔 이미지 기반 문서로, OCR을 통해 일부 검색 가능한 텍스트가 포함됨
    • “블랙박스” 형태의 편집이 적용되어 있으며, 이는 픽셀 기반으로 올바르게 수행된 것으로 확인됨
    • “디지털 생성(born-digital)” 문서는 발견되지 않음

파일 유효성 및 버전 분석

  • 여러 PDF 포렌식 도구를 활용한 유효성 검사 결과, 단 하나의 경미한 오류만 발견됨
    • 109개 파일에서 FontDescriptor Descent 값이 양수로 설정되어 있었으나, 이는 사소한 폰트 매칭 오류로 전체 유효성에는 영향 없음
  • pdfinfo 도구 두 종류를 비교한 결과, PDF 버전 판독값이 상이하게 나타남
    • Tool A는 1.3 버전 209개, 1.5 버전 3,875개로 보고
    • Tool B는 1.3 버전 3,817개, 1.5 버전 267개로 보고
    • 차이는 증분 업데이트(incremental update)Version 항목 처리 방식 차이 때문으로, Tool A의 결과가 정확함
  • 모든 PDF는 암호화·태그·주석·북마크·양식·JavaScript·첨부파일이 없음
    • 총 페이지 수는 9,659쪽이며, 대부분 단일 페이지 문서임

증분 업데이트와 Bates 번호

  • PDF는 여러 차례의 증분 업데이트를 통해 수정 내역을 누적 저장
    • 첫 번째 PDF(EFTA00000001.pdf)는 2회의 증분 업데이트를 포함
    • 마지막 업데이트에서 Bates 번호가 각 페이지에 추가됨
  • Bates 번호 추가는 /Type /XRef 교차참조 스트림을 사용하며, 모든 샘플 PDF에서 동일한 패턴으로 확인됨
  • 첫 번째 증분 업데이트에서는 PDF 버전이 1.3에서 1.5로 변경, 그러나 헤더와 불일치하는 기술적 오류 존재
    • 또한 숨겨진 문서 정보 딕셔너리(Info dictionary) 가 존재하나, 최종 트레일러에 참조되지 않아 일반 PDF 뷰어에서는 보이지 않음
    • 해당 딕셔너리에는 /Creator (OmniPage CSDK 21.1)/Producer (Processing-CLI) 정보가 포함되어 있음

메타데이터 및 날짜 분석

  • pdfinfo 결과, 대부분의 PDF에는 명시적 메타데이터나 XMP 스트림이 없음
    • 단, 일부 파일에서 orphaned Info dictionary가 존재하며, /Info 항목이 여러 번 등장
  • EFTA00003212.pdf 파일만이 Title, Author, Subject, Keywords, Creator 항목을 포함
    • /Producer 값은 “pypdf”로 표시된 215개 파일 존재
  • 생성일(CreationDate)과 수정일(ModDate)은 모두 동일하며, 2025년 12월 18일~19일 사이로 확인
    • 이는 DoJ의 일괄 처리(batch processing)가 약 36시간 동안 수행되었음을 시사

이미지 및 스캔 특성

  • 모든 PDF에서 JPEG(DCTDecode) 이미지 부재, 대신 FLATE 압축 비트맵 사용
    • 해상도는 약 96 DPI, 색상 팔레트는 256색으로 제한
    • 이는 EXIF·IPTC·XMP 메타데이터 제거 목적으로 추정됨
  • 일부 문서는 실제 스캔 흔적(종이 가장자리, 구멍, 낙서 등)이 있으나, 일부는 디지털 렌더링 후 스캔 시뮬레이션된 이미지로 보임
    • 동일한 기울기(skew)와 노이즈 부재로 구분 가능
  • Courier 고정폭 글꼴 사용으로 인해, 편집된 문자 수를 세어 추정할 수 있는 위험 존재

OCR 품질 및 편집 정확성

  • OCR 결과는 정확도가 낮고 언어 인식 기능 부재, 단순 문자 인식 수준
    • 첫 번째 PDF(EFTA00000001.pdf)의 OCR 텍스트는 대부분 부정확
  • “블랙박스” 편집은 이미지 픽셀 수준에서 직접 적용되어 있으며, 텍스트 객체 위 덮개(rectangle)가 아님
    • 따라서 복구 가능한 텍스트는 존재하지 않음

결론 및 시사점

  • DoJ의 PDF 생성 파이프라인은 JPEG 제거, 메타데이터 최소화, 이미지 기반 렌더링, OCR 적용 등으로 구성
    • 다만 불필요한 객체·빈 스트림·증분 업데이트 잔존 등으로 파일 크기와 복잡성이 증가
  • 일부 PDF 주석(comment)과 고아 객체(orphaned object) 가 남아 있어 정보 누출 가능성 존재
  • PDF 포렌식은 도구 간 결과 차이와 형식 복잡성으로 인해 오판 가능성이 높음
    • PDF Association은 이를 위해 PDF Forensic Liaison Working Group을 운영, 업계 표준화와 교육을 추진 중
Hacker News 의견들
  • 어떤 문서들은 실제 스캔본처럼 보이지만 물리적 노이즈가 전혀 없는 인공적인 PDF임을 발견했음
    페이지마다 동일한 기울기(skew)와 완벽한 가장자리를 가진 걸 보면, 원본 디지털 문서를 이미지로 렌더링한 뒤 기울기·축소·색상 감소 같은 후처리를 한 것으로 보임

    • 진짜 궁금한 건, 어떤 문서들이 이런 ‘가짜 스캔’ 인지, 그리고 그게 어떤 정치적 서사를 강화하려는 의도인지임
      누군가가 이런 짓을 하는 이유는 아마도 AI 생성 이미지나 조작된 자료를 진짜처럼 보이게 하려는 목적일 것임
    • GNOME Desktop을 쓰는 사람이라면, Bash 스크립트를 ~/.local/share/nautilus/에 넣어서 우클릭 메뉴에서 바로 가짜 스캔 PDF를 만들 수 있음
      원본 출처는 기억 안 나지만 Stack Exchange에서 본 것 같음. magick 명령어로 회전, 노이즈, 그레이스케일 변환 등을 적용함
    • 이런 식으로 만드는 건 이상함. 그냥 문서를 인쇄해서 다시 스캔하는 게 훨씬 쉬움
    • 특히 언급된 문서는 2019년 DoJ가 A. Acosta를 인터뷰한 자료로 보임.
      만약 진짜라면 FBI가 왜 스캔본처럼 위장했는지 의문임. 혹시 Epstein과 Acosta의 거래 중 공개하기 싫은 부분이 있는 걸까
      관련 PDF 링크
    • 나도 종종 비슷한 일을 함. 서명 요청받으면 빈 종이에 서명해서 스캔해두고, 나중에 그 위에 문서를 합쳐서 제출함
  • DOJ가 원본이 아닌 수정된 복제본을 공개한 건 법적으로 문제라고 생각함
    사용된 소프트웨어인 OmniPage CSDK 21.1이 메타데이터를 모두 제거하고 암호화된 파일도 삭제함

  • 누군가 Epstein(JE) 의 글쓰기 스타일을 분석해서 4chan 같은 곳의 게시물과 비교해본 적 있는지 궁금함
    Ghislaine도 마찬가지로 충분한 데이터가 있을 텐데, MaxwellHill 관련 주장은 믿지 않지만 뭔가 단서는 있을 것 같음

    • 예전에 HN 사용자들의 글쓰기 스타일을 분석해 유사 계정을 찾아내는 stylometry 프로젝트가 있었음
      관련 글
      프라이버시 문제로 사이트는 내려갔지만 정확도는 높았음. 나도 내 댓글을 무작위로 스타일링해주는 AI 브라우저 도우미를 만들어보고 싶어짐
    • 하지만 난 여전히 회의적임. 글쓰기 스타일과 어휘만으로는 너무 많은 사람이 겹쳐서 특정하기 어렵다고 봄
      다만 Epstein의 메일은 워낙 독특해서 예외일 수도 있음
    • 실제로 n-gram 분석만으로도 작성자를 식별할 수 있을 정도로 stylometry는 정교함
      HN 데모 링크
      이런 방식은 AI 생성 글도 잘 구분함. “AI 탐지용 트랜스포머”를 학습시키는 접근보다 훨씬 낫다고 생각함
    • Epstein의 글은 거의 난독증 수준으로 비문이 많음
      고위층 인사들이 직접 글을 거의 안 쓰다 보니 문장 구성 능력을 잃은 걸 수도 있고, 그들만의 내부 언어일 수도 있음
  • 이 페이지의 쿠키 팝업에서 ‘거부’ 버튼이 “Continue without consent” 로 되어 있는 게 웃겼음

    • 진짜로 사용자를 죄책감 들게 하려는 표현 같음
    • Epstein 관련 사이트가 Epstein처럼 행동한다는 게 아이러니함
  • PDF 주석이나 압축된 객체 스트림 내부의 고아 객체를 통해 정보가 새고 있을 수도 있음
    누군가 모든 문서를 독립적으로 아카이빙하고 있길 바람. 일부는 이미 삭제된 것으로 보임

    • Reddit에서도 관련 게시물이 삭제되거나 섀도우밴되고 있음
      하지만 Lemmy 커뮤니티에서는 여전히 논의 중임
    • 일부 문서는 피해자 이름이 포함되어 있어서 추가 블라인드 처리된 것일 수도 있음
    • 처음엔 Epstein Files Transparency Act 페이지에 모든 데이터셋의 .zip 링크가 있었는데,
      한때 전부 사라졌다가 지금은 대부분 복구된 상태임
  • 현재 allenai/olmocr-2-7b 모델로 DOJ가 제공한 OCR 결과와 비교 중임
    약 50만 장의 이미지가 있어서 시간이 꽤 걸림. 그래도 olmocr-2-7b의 인식률이 꽤 높음

    • 혹시 이미지 크기를 줄여서 성능을 높이는 방법을 써봤는지 궁금함.
      어느 크기 이하로 줄이면 텍스트 인식이 어려워지는지도 알고 싶음
  • 일부 최신 파일에 무작위 ‘=’ 문자가 들어가 있는 이유가 궁금했음
    OCR 오류 같지도 않고, 검색을 어렵게 만들려는 의도 같음

    • 어제 HN 메인에 관련 글이 올라왔음: 링크
    • 사실 이건 이메일의 quoted-printable 인코딩 처리 오류 때문임
      gnus의 개발자 Lars Ingebrigtsen이 블로그에서 설명했음
  • 일부 PDF에는 Base64 인코딩된 첨부파일이 본문에 그대로 들어 있음
    OCR 품질이 너무 나빠서 복원하려면 상당한 노력이 필요함
    예시 PDF,
    관련 Reddit 스레드

    • 몇 바이트만 오류가 나도 바이너리 복원이 불가능해질 수 있는지 궁금함
  • 개인적으로 더 흥미로운 건 Epstein의 은행 계좌
    누가 그에게 돈을 줬고, 또 누가 그로부터 받았는지가 핵심임

    • DOJ는 이런 정보들을 이미 알고 있거나, 원하면 바로 확인할 수 있을 것임
    • 하지만 자금 추적의 근본 원인 분석은 대중에게 공개되지 않음
      대신 여론이 특정 집단 간의 증오로 흐르도록 필요한 만큼만 공개됨
  • Cloudflare에 의해 접근이 차단됨