# 에이프스타인 PDF를 원본 인코딩 첨부파일에서 복원하기

> Clean Markdown view of GeekNews topic #26462. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26462](https://news.hada.io/topic?id=26462)
- GeekNews Markdown: [https://news.hada.io/topic/26462.md](https://news.hada.io/topic/26462.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-06T22:32:56+09:00
- Updated: 2026-02-06T22:32:56+09:00
- Original source: [neosmart.net](https://neosmart.net/blog/recreating-epstein-pdfs-from-raw-encoded-attachments/)
- Points: 1
- Comments: 1

## Topic Body

- 미 법무부가 공개한 **에이프스타인 이메일 아카이브**는 잘못된 인코딩과 과도한 검열로 인해 심각한 오류와 비판을 받고 있음  
- 일부 이메일에는 **`Content-Transfer-Encoding: base64`** 형식의 첨부파일이 그대로 포함되어 있어, 이 데이터를 복원하면 원본 PDF를 재구성할 수 있음  
- 그러나 **OCR 품질 저하**, **Courier New 폰트의 1과 l 구분 문제**, **잘못된 스캔 품질** 등으로 인해 자동 복원이 거의 불가능한 상태  
- 작성자는 **tesseract**, **Adobe Acrobat Pro**, **AWS Textract** 등을 활용해 복원을 시도했으나, 모두 불완전한 결과를 얻음  
- 이 사례는 **디지털 포렌식과 문서 복원 기술의 한계**를 드러내며, 커뮤니티가 협력해 해결해야 할 기술적 도전 과제로 제시됨  

---

### 법무부 공개 자료의 문제점
- 최근 공개된 **에이프스타인 아카이브**는 공범 이름부터 무관한 여성 사진까지 과도하게 검열된 상태로 배포됨  
  - 일부 파일은 **Quoted-Printable 인코딩 오류**로 손상되어 열람 불가 상태  
  - 심지어 이메일 자격 증명이 노출되어 **레딧 이용자들이 에이프스타인 계정에 접근**할 수 있었음  
- 이러한 부실한 처리로 인해 **Pam Bondi가 이끄는 법무부의 전문성 부족**이 지적됨  

### base64 첨부파일 발견
- 이메일 `EFTA00400459`에서 **76페이지 분량의 base64 인코딩 데이터**가 발견됨  
  - 이는 `DBC12 One Page Invite with Reply.pdf` 파일을 SMTP 전송용으로 인코딩한 형태  
  - 단순히 복사 후 `base64 -d > output.pdf` 명령으로 복원 가능해야 하지만, 실제로는 **OCR 스캔본**만 존재해 오류 다수 발생  
- OCR 결과에는 **잘못된 문자 삽입**, **누락**, **비합법 base64 문자(예: [, ,)** 등이 포함되어 디코딩 불가  

### OCR 및 폰트 문제
- **Adobe Acrobat Pro**와 **tesseract**를 이용한 OCR 재처리 시도 결과, 모두 **공백 삽입 및 문자 인식 오류** 발생  
- `tesseract`는 문자 집합을 base64 유효 문자로 제한했음에도 **라인 길이 불일치**와 **부분 인식 중단** 문제 발생  
- 가장 큰 원인은 **Courier New 폰트**로, `1`과 `l`의 구분이 거의 불가능함  
  - 낮은 해상도 JPEG 스캔과 압축 아티팩트로 인해 **시각적 식별조차 어려움**  
  - 이로 인해 수작업 교정이 필수적이며, 디코딩 시 `1`과 `l`을 바꿔가며 시도해야 함  

### 복원 시도와 도구 비교
- `imagemagick`과 `ghostscript`는 대용량 처리 중 **메모리 초과로 실패**, `pdftoppm`이 대안으로 사용됨  
- `AWS Textract`는 가장 나은 결과를 보였으나, 여전히 **라인 길이 오차**와 **비결정적 결과** 존재  
  - 입력 이미지를 2배 확대하여 인식률을 높였으나 완전한 복원에는 실패  
- `qpdf`를 이용한 PDF 구조 복원 시도는 **손상된 cross-reference 테이블**로 인해 실패  

### 커뮤니티 제안 및 후속 논의
- 글 말미에서 작성자는 **다른 첨부파일 복원 시도**를 커뮤니티에 제안  
  - `Content-Transfer-Encoding`과 `base64` 검색 시 일부 유용한 데이터 존재  
- 여러 사용자가 **ML 기반 OCR**, **폰트별 CNN 학습**, **crowdsourcing 캡차 방식** 등 다양한 접근법 제시  
  - 일부는 **PDF 복원 성공 사례**를 공유하며, `pdfimages` 사용이 `pdftoppm`보다 선명한 결과를 제공한다고 보고  
- 최종적으로, **1/l 구분 자동화 알고리듬**, **스트리밍 디컴프레서 기반 오류 탐지**, **픽셀 단위 비교** 등 고급 복원 기법이 논의됨  

### 기술적 의의
- 이 사건은 **디지털 문서 인코딩 오류와 OCR 한계**가 실제 정보 접근을 어떻게 방해하는지를 보여줌  
- **법적 증거물의 디지털 처리 품질 관리**와 **문서 포렌식 자동화 기술**의 중요성을 부각  
- 커뮤니티 협업을 통한 복원 시도는 **공공 데이터 투명성 확보**와 **기술적 검증 가능성**의 사례로 평가됨

## Comments



### Comment 50767

- Author: neo
- Created: 2026-02-06T22:32:57+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46890335) 
- Pam Bondi의 **법무부 팀**이 이 일에 최고의 인력을 투입하지 않은 것 같음  
  - 초반에 **FB 요원들 간의 메시지 대화**가 흥미로웠음. 혹시 일부러 엉망으로 처리해서 정보가 다시 검열되기 전에 흘러나가게 한 **악의적 준수(malicious compliance)** 였을지도 모른다는 생각을 함  
  - 인터넷이 그녀의 실수를 다 찾아주고 있어서, 오히려 **크라우드소싱**으로 잘 해결되고 있는 듯함. 사람들 덕분에 오류가 계속 수정되는 중임  

- **Claude Opus**가 만든 스크립트를 공유함  
  [스크립트 링크](https://pastebin.com/ntE50PkZ) / [텍스트 출력](https://pastebin.com/SADsJZHd) / [정리된 버전](https://pastebin.com/UXRAJdKJ)  
  첫 페이지 정도는 읽을 수 있는 PDF를 생성함  
  - 혹시 **정상화된 PDF**로 다시 내보내거나 스크린샷을 공유할 수 있는지 궁금함. 내 PDF 리더들이 전부 열기를 거부함  
  - 450명이 참석한 **공개 행사**였다는 걸 확인함. [Mount Sinai 기사](https://www.mountsinai.org/about/newsroom/2012/dubin-breast-center-holds-inaugural-gala)와 [Business Insider 기사](https://www.businessinsider.com/dubin-breast-center-benefit-2012-12)에서 이름이 일치하지만 날짜가 다름  
  - 멋진 작업임  

- **Tesseract**는 특정 폰트로 학습시킬 수 있음. 이게 좋은 출발점이 될 것 같음  
  참고: [Tesseract 학습 데이터 가이드](https://pretius.com/blog/ocr-tesseract-training-data)

- 이건 **이진 PDF 디코딩** 문제임. 가능한 인코딩 수가 제한되어 있으므로 다음 접근을 제안함  
  1. 오픈소스 PDF 디코더 사용  
  2. 첫 모호한 문자 전까지 바이트 디코딩  
  3. 다음 비트가 유효하면 1, 아니면 l로 판단  
  4. 둘 다 유효하면 백트래킹  
  이렇게 하면 중간 문자만 빠르게 테스트할 수 있어 전체 탐색이 선형적으로 가능함  
  - 하지만 **압축 단계**가 중간에 있어서 백트래킹이 훨씬 많아질 수도 있음  
  - 이런 건 **afl**로 처리하는 게 어울림  

- 이건 **nerd snipe**처럼 보이지만, 사실 **브루트포스**로 더 빨리 끝낼 수 있음. 76명이 한 페이지씩 타이핑하면 블로그 글이 올라오기 전에 끝남  
  - 한 사람이 76페이지를 다 치는 것도 가능함. 예전엔 이런 작업을 종종 했음  
  - 하지만 76명을 **정확하게 필사**하게 만드는 건 쉽지 않음  
  - 나한텐 76명의 친구가 없어서, **Craigslist**나 **Fiverr**에 올려야 할 듯함. 관리가 꽤 복잡할 것 같음  

- PDF가 워낙 **복잡한 포맷**이라, 정부가 아예 새로운 **안전한 오픈 포맷**을 만들어 표준화하는 게 낫다고 생각함  
  - **XPS**는 XML 기반의 공식 표준이고 오픈소스 지원도 괜찮지만, 도구 품질이 떨어지고 여전히 복잡함  
    **DjVu**는 단순하고 오픈소스 도구가 좋지만 기능이 부족함  
    **TIFF**는 오히려 PDF보다 더 복잡해서 부적합함  
    참고: [XPS](https://en.wikipedia.org/wiki/Open_XML_Paper_Specification), [DjVu](https://en.wikipedia.org/wiki/DjVu), [TIFF](https://en.wikipedia.org/wiki/TIFF)  
  - 하지만 이건 **도구의 문제**가 아니라, **법을 경시하거나 일부러 엉망으로 처리하는 태도**의 문제라고 봄  
  - 새 포맷을 만들어도 **3~5년이면** 결국 PDF처럼 복잡해질 것임  
  - 농담 반 진담 반으로, **JPEG**로 가자는 의견도 있음  

- **justice.gov** 검색창에서 같은 이메일의 여러 버전을 찾을 수 있었음  
  원본: [EFTA00400459.pdf](https://www.justice.gov/epstein/files/DataSet%209/EFTA00400459.pdf)  
  추가 버전:  
  [EFTA02153691.pdf](https://www.justice.gov/epstein/files/DataSet%2010/EFTA02153691.pdf)  
  [EFTA02154109.pdf](https://www.justice.gov/epstein/files/DataSet%2010/EFTA02154109.pdf)  
  [EFTA02154246.pdf](https://www.justice.gov/epstein/files/DataSet%2010/EFTA02154246.pdf)  
  여러 버전을 비교하면 더 쉽게 해결할 수 있을 듯함  
  - 다른 **base64 인코딩**과 폰트를 가진 버전도 발견함: [EFTA00775520.pdf](https://www.justice.gov/epstein/files/DataSet%209/EFTA00775520.pdf).  
    “1”과 “l” 문제는 그대로지만 참고용으로 유용할 수 있음  

- (1, l) 조합의 모든 **순열을 시도**하면 어떨까 생각함. 76페이지 × 69줄 × 1회 등장이라 치면 2^5244 가지 가능성임. CPU 여분 있는 사람?  
  - 사실 훨씬 쉬움. 각 수정이 **정상적인 PDF 구조**로 디코딩되는지 순차적으로 검사하면 됨.  
    압축이 기본이라면 체크섬 덕분에 더 쉬워짐. 다만 기존 도구로는 불가능하고, **디코더 내부에 계측된 테스트 하네스**를 직접 만들어야 함  
  - 아니면 **Epsteincoin** 같은 암호화폐를 만들어, 이 문제를 푸는 데 컴퓨팅 파워를 모으면 됨  

- 행사 세부 정보: [Dubin Breast Center 2nd Annual Benefit (Archive)](https://web.archive.org/web/20260206040716/https://what2wearwhere.com/dubin-breast-center-2nd-annual-benefit/)  
  - 행사 포스터에는 **2012년 12월 10일** Mandarin Oriental에서 열린 **Dubin Breast Center 2주년 자선행사**로,  
    Elisa Port와 Ruttenberg 가족을 기리는 내용이 적혀 있음.  
    사회자는 Cynthia McFadden, 공연에는 여러 뮤지션이 참여함  

- **pdftoppm**과 **Ghostscript**(Imagemagick을 통해 호출)는 전체 페이지를 다시 래스터화하기 때문에 느림  
  **pdfimages**나 **mutool**로 스캔된 이미지를 직접 추출하는 게 훨씬 빠름  
  테스트 결과 pdfimages가 pdftoppm보다 **13배 빠름**
