스노든 문서에서 PDF 메타데이터 버전 분석으로 새로

▲

GN⁺ 3달전 | parent | ★ favorite | on: 스노든 문서에서 PDF 메타데이터 버전 분석으로 새로 드러난 정보(libroot.org)

Hacker News 의견들

이 PDF들은 “incremental update” 기능을 사용한 것으로 보임
즉, 문서 수정 시 원본 파일에 변경 내용만 덧붙이는 방식임
간단히 말해, 텍스트 에디터로 “%%EOF” 줄을 찾아 그 이후를 잘라내면 이전 버전의 PDF를 복원할 수 있음
단, linearized PDF의 첫 번째 %%EOF는 실제 버전이 아닌 기술적 이유로 존재하는 가짜 개정임
- 새로운 OSINT 스킬을 얻은 기분임
- Adobe가 MS Word 기능을 따라잡으려다 이런 첩보 도구를 만들어버린 게 웃김
정보 보호 관점에서 보면, 문서를 인쇄 후 스캔해 이미지 PDF로 만드는 방식이 점점 더 좋아 보임
- 하지만 모든 컬러 프린터에는 눈에 보이지 않는 노란 점 코드(dotcode) 가 있음
  이 코드에는 프린터의 일련번호나 심지어 인터넷 연결 시의 IP 주소까지 포함될 수 있음
  따라서 펌웨어를 제어할 수 없는 프린터는 사용을 피해야 함
  관련 분석 도구로 YellowDotDecode, dotsecrets, CCC 2007 발표자료가 있음
- 더 나은 방법은 PDF를 JPEG/PNG → BMP로 변환 후 공유하거나 출력하는 것임
  혹은 LLM으로 문서를 재구성해 문장부호와 공백을 없애고, 그 결과를 다시 이미지화하는 방법도 있음
  필름 카메라로 모니터를 찍는 아날로그 촬영은 위조 방지와 증거 보존에 유용함
  하지만 어떤 방식이든 흔적은 남기 때문에, 허가되지 않은 정보 공유는 절대 피해야 함
  결국 스파이들이 다시 마이크로필름으로 돌아가는 시대가 온 듯함
- 나 같으면 PDF를 TIFF나 PNG로 저장한 뒤 다시 PDF로 만드는 편임
  정말 불안하다면 이미지에 노이즈 필터를 걸어 흐릿하게 만들겠음
- 그냥 각 페이지를 스크린샷으로 찍는 게 더 간단하지 않음?
- 그렇게 하면 Section 508 접근성 규정을 대규모로 맞추는 게 꽤 웃길 듯함
PDF 문서를 분석할 수 있는 툴링 개선이 필요함
지금은 qpdf의 QDF 모드로 어느 정도 해결하지만, GUI가 절실함
- REMNux PDF 분석 페이지를 참고해볼 만함
  악성 PDF 분석용이지만 일반 문서 이해에도 유용한 도구들이 많음
- 그 도구는 주로 편집용으로 보이는데, 어떤 맥락에서 사용하는지 궁금함
  Epstein PDF 사건 이후 이런 아이디어가 더 흥미로워졌음
이 연구는 정말 통찰력 있음
예전에 누군가 Snowden 문서를 다시 분석해 새로운 정보를 찾았던 것도 떠오름
그가 모든 자료를 완전히 공개하지 못한 건 아쉬움
- 최근 완전히 새로운 정보는 Jacob Appelbaum의 2022년 박사 논문에서 나왔음
  이전에 공개되지 않았던 내용을 다룸
  관련 글은 Electrospaces 블로그와
  Libroot Part 2, Part 3에서 볼 수 있음
기자 Ryan Gallagher에게 편집 결정에 대해 문의했지만 아직 답변을 받지 못했음
휴일이 끝났으니 이제는 소식이 있기를 바람
- 왜 기자들이 문서를 검열(redact) 했는지 의문임
  정부 압력 때문인지, 아니면 너무 민감한 내용이 있어서인지 궁금함
  혹시 기자들만 원본 파일을 가지고 있는 건 아닌지
PDF가 어떻게 이런 식으로 가능한지 궁금했음
버전 히스토리를 전부 저장하는 구조인지, 메타데이터에 diff를 보관하는지 알고 싶음
- PDF는 여러 객체(object) 로 구성된 구조임
  각 객체는 ID를 가지며, 수정 시 기존 객체를 덮지 않고 새 세대(generation)를 추가함
  예를 들어 mutool clean -d in.pdf out.pdf로 압축을 풀면 구조를 볼 수 있음
  이렇게 하면 원본을 유지하면서 수정본을 덧붙이는 형태가 됨
- 페이지 하단의 pdfresurrect 패키지를 보면, PDF가 수정 이력을 유지한다고 설명되어 있음
  이 도구는 이전 버전을 추출하고 변경 요약을 제공함
- 관련 참고 자료로 A Typical PDF가 있음
- 결국 PDF는 객체 테이블과 참조 트리로 구성되어 있음
  이전 버전의 객체가 참조되지 않아도 파일 안에 남아 있을 수 있음
인쇄 후 스캔 대신, XPS로 출력 후 다시 PDF로 변환하는 방법도 효과적일지 궁금함
이런 사실이 이제야 알려졌다는 게 놀라움
- 아마 이미 누군가는 알고 있었을 것임
  단지 이런 정보가 널리 퍼지지 않았을 뿐임
- 아마도 Epstein PDF 파일 사건이 주목받으면서 다시 떠오른 듯함
% pdfresurrect -w epsteinfiles.pdf 명령을 써본 사람 있음?
- 실제로 시도해본 사람이 있는지 궁금함
이건 거의 확실히 기자들의 편집(redaction) 결과로 보임
“편집됨” 표시나 이유 설명이 없다는 게 아쉬움
기술적으로도 스크린샷으로 공개했으면 메타데이터 유출을 막을 수 있었을 텐데
- 실제로 기자들이 편집했음
  메타데이터 타임스탬프를 보면, 문서 버전이 공개 3주 전에 만들어졌음을 알 수 있음
  대부분의 문서는 잘 처리되었지만, 이번 두 개 문서만 메타데이터 실수로 중요한 정보가 노출됨
  다음 글에서는 PDF 포렌식 및 메타데이터 분석에 대한 기술적 심층 내용을 다룰 예정임