# 에프스타인 PDF의 디지털 포렌식 사례 연구

> Clean Markdown view of GeekNews topic #26424. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26424](https://news.hada.io/topic?id=26424)
- GeekNews Markdown: [https://news.hada.io/topic/26424.md](https://news.hada.io/topic/26424.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-05T21:33:26+09:00
- Updated: 2026-02-05T21:33:26+09:00
- Original source: [pdfa.org](https://pdfa.org/a-case-study-in-pdf-forensics-the-epstein-pdfs/)
- Points: 1
- Comments: 1

## Topic Body

- 미국 법무부가 **Epstein Files Transparency Act**에 따라 공개한 PDF 문서들을 대상으로, 파일 구조와 구문을 중심으로 한 **디지털 포렌식 분석**이 수행됨  
- 분석 결과, 공개된 **EFTA 데이터세트 01–07의 PDF들은 올바르게 편집(redaction)** 되어 있으며, 소셜미디어에서 제기된 “복구 가능한 편집” 주장은 사실이 아님  
- 모든 PDF는 **암호화·주석·JavaScript·첨부파일이 없고**, 대부분 스캔 이미지 기반으로 OCR이 적용된 형태이며, 일부 파일에는 **숨겨진 메타데이터(dictionary)** 가 존재함  
- **Bates 번호 부여, 비압축 객체 스트림, 잘못된 버전 표기, 누락된 주석 처리** 등 기술적 세부사항이 발견되었으나, 파일 유효성에는 큰 영향이 없음  
- 이 사례는 **PDF 포렌식의 복잡성과 도구 신뢰성 한계**를 보여주며, 민감 문서 공개 전 **정확한 정제·편집 워크플로우의 중요성**을 강조함  

---

### DoJ 공개 데이터 개요
- 법무부는 2025년 12월 19일 7개의 ZIP 아카이브(총 2.97GB)를 공개, 내부에는 **4,085개의 PDF**, 1개의 AVI 파일, 각 세트별 `.DAT` 및 `.OPT` 데이터 파일 포함  
  - PDF 파일명은 `EFTA00000001.pdf`부터 `EFTA00009664.pdf`까지 순차 구성  
  - 약 **5,879개의 PDF가 아직 미공개** 상태로 확인됨  
- PDF들은 대부분 **스캔 이미지 기반 문서**로, OCR을 통해 일부 검색 가능한 텍스트가 포함됨  
  - “블랙박스” 형태의 편집이 적용되어 있으며, 이는 픽셀 기반으로 올바르게 수행된 것으로 확인됨  
  - “디지털 생성(born-digital)” 문서는 발견되지 않음  

### 파일 유효성 및 버전 분석
- 여러 **PDF 포렌식 도구**를 활용한 유효성 검사 결과, 단 하나의 경미한 오류만 발견됨  
  - 109개 파일에서 **FontDescriptor Descent 값이 양수**로 설정되어 있었으나, 이는 사소한 폰트 매칭 오류로 전체 유효성에는 영향 없음  
- `pdfinfo` 도구 두 종류를 비교한 결과, **PDF 버전 판독값이 상이**하게 나타남  
  - Tool A는 1.3 버전 209개, 1.5 버전 3,875개로 보고  
  - Tool B는 1.3 버전 3,817개, 1.5 버전 267개로 보고  
  - 차이는 **증분 업데이트(incremental update)** 의 **Version 항목 처리 방식** 차이 때문으로, Tool A의 결과가 정확함  
- 모든 PDF는 **암호화·태그·주석·북마크·양식·JavaScript·첨부파일이 없음**  
  - 총 페이지 수는 9,659쪽이며, 대부분 단일 페이지 문서임  

### 증분 업데이트와 Bates 번호
- PDF는 여러 차례의 **증분 업데이트**를 통해 수정 내역을 누적 저장  
  - 첫 번째 PDF(`EFTA00000001.pdf`)는 **2회의 증분 업데이트**를 포함  
  - 마지막 업데이트에서 **Bates 번호**가 각 페이지에 추가됨  
- Bates 번호 추가는 `/Type /XRef` 교차참조 스트림을 사용하며, 모든 샘플 PDF에서 동일한 패턴으로 확인됨  
- 첫 번째 증분 업데이트에서는 **PDF 버전이 1.3에서 1.5로 변경**, 그러나 헤더와 불일치하는 기술적 오류 존재  
  - 또한 **숨겨진 문서 정보 딕셔너리(Info dictionary)** 가 존재하나, 최종 트레일러에 참조되지 않아 일반 PDF 뷰어에서는 보이지 않음  
  - 해당 딕셔너리에는 `/Creator (OmniPage CSDK 21.1)` 및 `/Producer (Processing-CLI)` 정보가 포함되어 있음  

### 메타데이터 및 날짜 분석
- `pdfinfo` 결과, 대부분의 PDF에는 **명시적 메타데이터나 XMP 스트림이 없음**  
  - 단, 일부 파일에서 **orphaned Info dictionary**가 존재하며, `/Info` 항목이 여러 번 등장  
- `EFTA00003212.pdf` 파일만이 **Title, Author, Subject, Keywords, Creator** 항목을 포함  
  - `/Producer` 값은 “pypdf”로 표시된 215개 파일 존재  
- 생성일(`CreationDate`)과 수정일(`ModDate`)은 모두 동일하며, **2025년 12월 18일~19일 사이**로 확인  
  - 이는 DoJ의 일괄 처리(batch processing)가 약 36시간 동안 수행되었음을 시사  

### 이미지 및 스캔 특성
- 모든 PDF에서 **JPEG(DCTDecode) 이미지 부재**, 대신 **FLATE 압축 비트맵** 사용  
  - 해상도는 약 **96 DPI**, 색상 팔레트는 256색으로 제한  
  - 이는 **EXIF·IPTC·XMP 메타데이터 제거 목적**으로 추정됨  
- 일부 문서는 실제 스캔 흔적(종이 가장자리, 구멍, 낙서 등)이 있으나, 일부는 **디지털 렌더링 후 스캔 시뮬레이션된 이미지**로 보임  
  - 동일한 기울기(skew)와 노이즈 부재로 구분 가능  
- **Courier 고정폭 글꼴** 사용으로 인해, 편집된 문자 수를 세어 추정할 수 있는 위험 존재  

### OCR 품질 및 편집 정확성
- OCR 결과는 **정확도가 낮고 언어 인식 기능 부재**, 단순 문자 인식 수준  
  - 첫 번째 PDF(`EFTA00000001.pdf`)의 OCR 텍스트는 대부분 부정확  
- “블랙박스” 편집은 **이미지 픽셀 수준에서 직접 적용**되어 있으며, 텍스트 객체 위 덮개(rectangle)가 아님  
  - 따라서 복구 가능한 텍스트는 존재하지 않음  

### 결론 및 시사점
- DoJ의 PDF 생성 파이프라인은 **JPEG 제거, 메타데이터 최소화, 이미지 기반 렌더링, OCR 적용** 등으로 구성  
  - 다만 **불필요한 객체·빈 스트림·증분 업데이트 잔존** 등으로 파일 크기와 복잡성이 증가  
- 일부 **PDF 주석(comment)과 고아 객체(orphaned object)** 가 남아 있어 정보 누출 가능성 존재  
- PDF 포렌식은 **도구 간 결과 차이와 형식 복잡성**으로 인해 오판 가능성이 높음  
  - PDF Association은 이를 위해 **PDF Forensic Liaison Working Group**을 운영, 업계 표준화와 교육을 추진 중

## Comments


### Comment 50675

- Author: neo
- Created: 2026-02-05T21:33:26+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46886440) 
- 어떤 문서들은 실제 스캔본처럼 보이지만 **물리적 노이즈가 전혀 없는 인공적인 PDF**임을 발견했음  
  페이지마다 동일한 기울기(skew)와 완벽한 가장자리를 가진 걸 보면, 원본 디지털 문서를 이미지로 렌더링한 뒤 기울기·축소·색상 감소 같은 후처리를 한 것으로 보임  
  - 진짜 궁금한 건, 어떤 문서들이 이런 **‘가짜 스캔’** 인지, 그리고 그게 어떤 정치적 서사를 강화하려는 의도인지임  
    누군가가 이런 짓을 하는 이유는 아마도 **AI 생성 이미지**나 조작된 자료를 진짜처럼 보이게 하려는 목적일 것임  
  - GNOME Desktop을 쓰는 사람이라면, Bash 스크립트를 `~/.local/share/nautilus/`에 넣어서 우클릭 메뉴에서 바로 **가짜 스캔 PDF**를 만들 수 있음  
    원본 출처는 기억 안 나지만 Stack Exchange에서 본 것 같음. `magick` 명령어로 회전, 노이즈, 그레이스케일 변환 등을 적용함  
  - 이런 식으로 만드는 건 이상함. 그냥 문서를 인쇄해서 다시 스캔하는 게 훨씬 쉬움  
  - 특히 언급된 문서는 2019년 **DoJ가 A. Acosta를 인터뷰한 자료**로 보임.  
    만약 진짜라면 FBI가 왜 스캔본처럼 위장했는지 의문임. 혹시 Epstein과 Acosta의 거래 중 공개하기 싫은 부분이 있는 걸까  
    [관련 PDF 링크](https://www.justice.gov/epstein/files/DataSet%207/EFTA00009229.pdf)  
  - 나도 종종 비슷한 일을 함. 서명 요청받으면 빈 종이에 서명해서 스캔해두고, 나중에 그 위에 문서를 합쳐서 제출함  

- DOJ가 원본이 아닌 **수정된 복제본**을 공개한 건 법적으로 문제라고 생각함  
  사용된 소프트웨어인 *OmniPage CSDK 21.1*이 메타데이터를 모두 제거하고 암호화된 파일도 삭제함  

- 누군가 **Epstein(JE)** 의 글쓰기 스타일을 분석해서 4chan 같은 곳의 게시물과 비교해본 적 있는지 궁금함  
  Ghislaine도 마찬가지로 충분한 데이터가 있을 텐데, MaxwellHill 관련 주장은 믿지 않지만 뭔가 단서는 있을 것 같음  
  - 예전에 HN 사용자들의 글쓰기 스타일을 분석해 유사 계정을 찾아내는 **stylometry 프로젝트**가 있었음  
    [관련 글](https://news.ycombinator.com/item?id=33755016)  
    프라이버시 문제로 사이트는 내려갔지만 정확도는 높았음. 나도 내 댓글을 무작위로 스타일링해주는 **AI 브라우저 도우미**를 만들어보고 싶어짐  
  - 하지만 난 여전히 회의적임. 글쓰기 스타일과 어휘만으로는 너무 많은 사람이 겹쳐서 특정하기 어렵다고 봄  
    다만 Epstein의 메일은 워낙 독특해서 예외일 수도 있음  
  - 실제로 **n-gram 분석**만으로도 작성자를 식별할 수 있을 정도로 stylometry는 정교함  
    [HN 데모 링크](https://news.ycombinator.com/item?id=33755016)  
    이런 방식은 AI 생성 글도 잘 구분함. “AI 탐지용 트랜스포머”를 학습시키는 접근보다 훨씬 낫다고 생각함  
  - Epstein의 글은 거의 **난독증 수준으로 비문이 많음**  
    고위층 인사들이 직접 글을 거의 안 쓰다 보니 문장 구성 능력을 잃은 걸 수도 있고, 그들만의 내부 언어일 수도 있음  

- 이 페이지의 쿠키 팝업에서 ‘거부’ 버튼이 **“Continue without consent”** 로 되어 있는 게 웃겼음  
  - 진짜로 사용자를 **죄책감 들게 하려는 표현** 같음  
  - Epstein 관련 사이트가 Epstein처럼 행동한다는 게 아이러니함  

- PDF 주석이나 압축된 객체 스트림 내부의 **고아 객체**를 통해 정보가 새고 있을 수도 있음  
  누군가 모든 문서를 독립적으로 **아카이빙**하고 있길 바람. 일부는 이미 삭제된 것으로 보임  
  - Reddit에서도 관련 게시물이 삭제되거나 **섀도우밴**되고 있음  
    하지만 [Lemmy 커뮤니티](https://lemmy.world/post/42440468)에서는 여전히 논의 중임  
  - 일부 문서는 피해자 이름이 포함되어 있어서 **추가 블라인드 처리**된 것일 수도 있음  
  - 처음엔 [Epstein Files Transparency Act 페이지](https://www.justice.gov/epstein/doj-disclosures)에 모든 데이터셋의 .zip 링크가 있었는데,  
    한때 전부 사라졌다가 지금은 대부분 복구된 상태임  

- 현재 allenai/olmocr-2-7b 모델로 DOJ가 제공한 OCR 결과와 비교 중임  
  약 50만 장의 이미지가 있어서 시간이 꽤 걸림. 그래도 **olmocr-2-7b의 인식률이 꽤 높음**  
  - 혹시 이미지 크기를 줄여서 성능을 높이는 방법을 써봤는지 궁금함.  
    어느 크기 이하로 줄이면 텍스트 인식이 어려워지는지도 알고 싶음  

- 일부 최신 파일에 **무작위 ‘=’ 문자**가 들어가 있는 이유가 궁금했음  
  OCR 오류 같지도 않고, 검색을 어렵게 만들려는 의도 같음  
  - 어제 HN 메인에 관련 글이 올라왔음: [링크](https://news.ycombinator.com/item?id=46868759)  
  - 사실 이건 이메일의 **quoted-printable 인코딩 처리 오류** 때문임  
    gnus의 개발자 Lars Ingebrigtsen이 블로그에서 설명했음  

- 일부 PDF에는 **Base64 인코딩된 첨부파일**이 본문에 그대로 들어 있음  
  OCR 품질이 너무 나빠서 복원하려면 상당한 노력이 필요함  
  [예시 PDF](https://www.justice.gov/epstein/files/DataSet%2011/EFTA02609263.pdf),  
  [관련 Reddit 스레드](https://old.reddit.com/r/Epstein/comments/1qu9az2/theres_unredacted_attachments_as_base64_in_some/)  
  - 몇 바이트만 오류가 나도 **바이너리 복원이 불가능**해질 수 있는지 궁금함  

- 개인적으로 더 흥미로운 건 **Epstein의 은행 계좌**임  
  누가 그에게 돈을 줬고, 또 누가 그로부터 받았는지가 핵심임  
  - DOJ는 이런 정보들을 이미 알고 있거나, 원하면 바로 확인할 수 있을 것임  
  - 하지만 **자금 추적의 근본 원인 분석**은 대중에게 공개되지 않음  
    대신 여론이 특정 집단 간의 증오로 흐르도록 필요한 만큼만 공개됨  

- Cloudflare에 의해 접근이 **차단됨**