이 PDF들은 “incremental update” 기능을 사용한 것으로 보임
즉, 문서 수정 시 원본 파일에 변경 내용만 덧붙이는 방식임
간단히 말해, 텍스트 에디터로 “%%EOF” 줄을 찾아 그 이후를 잘라내면 이전 버전의 PDF를 복원할 수 있음
단, linearized PDF의 첫 번째 %%EOF는 실제 버전이 아닌 기술적 이유로 존재하는 가짜 개정임
새로운 OSINT 스킬을 얻은 기분임
Adobe가 MS Word 기능을 따라잡으려다 이런 첩보 도구를 만들어버린 게 웃김
정보 보호 관점에서 보면, 문서를 인쇄 후 스캔해 이미지 PDF로 만드는 방식이 점점 더 좋아 보임
하지만 모든 컬러 프린터에는 눈에 보이지 않는 노란 점 코드(dotcode) 가 있음
이 코드에는 프린터의 일련번호나 심지어 인터넷 연결 시의 IP 주소까지 포함될 수 있음
따라서 펌웨어를 제어할 수 없는 프린터는 사용을 피해야 함
관련 분석 도구로 YellowDotDecode, dotsecrets, CCC 2007 발표자료가 있음
더 나은 방법은 PDF를 JPEG/PNG → BMP로 변환 후 공유하거나 출력하는 것임
혹은 LLM으로 문서를 재구성해 문장부호와 공백을 없애고, 그 결과를 다시 이미지화하는 방법도 있음
필름 카메라로 모니터를 찍는 아날로그 촬영은 위조 방지와 증거 보존에 유용함
하지만 어떤 방식이든 흔적은 남기 때문에, 허가되지 않은 정보 공유는 절대 피해야 함
결국 스파이들이 다시 마이크로필름으로 돌아가는 시대가 온 듯함
나 같으면 PDF를 TIFF나 PNG로 저장한 뒤 다시 PDF로 만드는 편임
정말 불안하다면 이미지에 노이즈 필터를 걸어 흐릿하게 만들겠음
그냥 각 페이지를 스크린샷으로 찍는 게 더 간단하지 않음?
그렇게 하면 Section 508 접근성 규정을 대규모로 맞추는 게 꽤 웃길 듯함
PDF 문서를 분석할 수 있는 툴링 개선이 필요함
지금은 qpdf의 QDF 모드로 어느 정도 해결하지만, GUI가 절실함
기자 Ryan Gallagher에게 편집 결정에 대해 문의했지만 아직 답변을 받지 못했음
휴일이 끝났으니 이제는 소식이 있기를 바람
왜 기자들이 문서를 검열(redact) 했는지 의문임
정부 압력 때문인지, 아니면 너무 민감한 내용이 있어서인지 궁금함
혹시 기자들만 원본 파일을 가지고 있는 건 아닌지
PDF가 어떻게 이런 식으로 가능한지 궁금했음
버전 히스토리를 전부 저장하는 구조인지, 메타데이터에 diff를 보관하는지 알고 싶음
PDF는 여러 객체(object) 로 구성된 구조임
각 객체는 ID를 가지며, 수정 시 기존 객체를 덮지 않고 새 세대(generation)를 추가함
예를 들어 mutool clean -d in.pdf out.pdf로 압축을 풀면 구조를 볼 수 있음
이렇게 하면 원본을 유지하면서 수정본을 덧붙이는 형태가 됨
페이지 하단의 pdfresurrect 패키지를 보면, PDF가 수정 이력을 유지한다고 설명되어 있음
이 도구는 이전 버전을 추출하고 변경 요약을 제공함
결국 PDF는 객체 테이블과 참조 트리로 구성되어 있음
이전 버전의 객체가 참조되지 않아도 파일 안에 남아 있을 수 있음
인쇄 후 스캔 대신, XPS로 출력 후 다시 PDF로 변환하는 방법도 효과적일지 궁금함
이런 사실이 이제야 알려졌다는 게 놀라움
아마 이미 누군가는 알고 있었을 것임
단지 이런 정보가 널리 퍼지지 않았을 뿐임
아마도 Epstein PDF 파일 사건이 주목받으면서 다시 떠오른 듯함
% pdfresurrect -w epsteinfiles.pdf 명령을 써본 사람 있음?
실제로 시도해본 사람이 있는지 궁금함
이건 거의 확실히 기자들의 편집(redaction) 결과로 보임
“편집됨” 표시나 이유 설명이 없다는 게 아쉬움
기술적으로도 스크린샷으로 공개했으면 메타데이터 유출을 막을 수 있었을 텐데
실제로 기자들이 편집했음
메타데이터 타임스탬프를 보면, 문서 버전이 공개 3주 전에 만들어졌음을 알 수 있음
대부분의 문서는 잘 처리되었지만, 이번 두 개 문서만 메타데이터 실수로 중요한 정보가 노출됨
다음 글에서는 PDF 포렌식 및 메타데이터 분석에 대한 기술적 심층 내용을 다룰 예정임
Hacker News 의견들
이 PDF들은 “incremental update” 기능을 사용한 것으로 보임
즉, 문서 수정 시 원본 파일에 변경 내용만 덧붙이는 방식임
간단히 말해, 텍스트 에디터로 “%%EOF” 줄을 찾아 그 이후를 잘라내면 이전 버전의 PDF를 복원할 수 있음
단, linearized PDF의 첫 번째 %%EOF는 실제 버전이 아닌 기술적 이유로 존재하는 가짜 개정임
정보 보호 관점에서 보면, 문서를 인쇄 후 스캔해 이미지 PDF로 만드는 방식이 점점 더 좋아 보임
이 코드에는 프린터의 일련번호나 심지어 인터넷 연결 시의 IP 주소까지 포함될 수 있음
따라서 펌웨어를 제어할 수 없는 프린터는 사용을 피해야 함
관련 분석 도구로 YellowDotDecode, dotsecrets, CCC 2007 발표자료가 있음
혹은 LLM으로 문서를 재구성해 문장부호와 공백을 없애고, 그 결과를 다시 이미지화하는 방법도 있음
필름 카메라로 모니터를 찍는 아날로그 촬영은 위조 방지와 증거 보존에 유용함
하지만 어떤 방식이든 흔적은 남기 때문에, 허가되지 않은 정보 공유는 절대 피해야 함
결국 스파이들이 다시 마이크로필름으로 돌아가는 시대가 온 듯함
정말 불안하다면 이미지에 노이즈 필터를 걸어 흐릿하게 만들겠음
PDF 문서를 분석할 수 있는 툴링 개선이 필요함
지금은
qpdf의 QDF 모드로 어느 정도 해결하지만, GUI가 절실함악성 PDF 분석용이지만 일반 문서 이해에도 유용한 도구들이 많음
Epstein PDF 사건 이후 이런 아이디어가 더 흥미로워졌음
이 연구는 정말 통찰력 있음
예전에 누군가 Snowden 문서를 다시 분석해 새로운 정보를 찾았던 것도 떠오름
그가 모든 자료를 완전히 공개하지 못한 건 아쉬움
이전에 공개되지 않았던 내용을 다룸
관련 글은 Electrospaces 블로그와
Libroot Part 2, Part 3에서 볼 수 있음
기자 Ryan Gallagher에게 편집 결정에 대해 문의했지만 아직 답변을 받지 못했음
휴일이 끝났으니 이제는 소식이 있기를 바람
정부 압력 때문인지, 아니면 너무 민감한 내용이 있어서인지 궁금함
혹시 기자들만 원본 파일을 가지고 있는 건 아닌지
PDF가 어떻게 이런 식으로 가능한지 궁금했음
버전 히스토리를 전부 저장하는 구조인지, 메타데이터에 diff를 보관하는지 알고 싶음
각 객체는 ID를 가지며, 수정 시 기존 객체를 덮지 않고 새 세대(generation)를 추가함
예를 들어
mutool clean -d in.pdf out.pdf로 압축을 풀면 구조를 볼 수 있음이렇게 하면 원본을 유지하면서 수정본을 덧붙이는 형태가 됨
이 도구는 이전 버전을 추출하고 변경 요약을 제공함
이전 버전의 객체가 참조되지 않아도 파일 안에 남아 있을 수 있음
인쇄 후 스캔 대신, XPS로 출력 후 다시 PDF로 변환하는 방법도 효과적일지 궁금함
이런 사실이 이제야 알려졌다는 게 놀라움
단지 이런 정보가 널리 퍼지지 않았을 뿐임
% pdfresurrect -w epsteinfiles.pdf명령을 써본 사람 있음?이건 거의 확실히 기자들의 편집(redaction) 결과로 보임
“편집됨” 표시나 이유 설명이 없다는 게 아쉬움
기술적으로도 스크린샷으로 공개했으면 메타데이터 유출을 막을 수 있었을 텐데
메타데이터 타임스탬프를 보면, 문서 버전이 공개 3주 전에 만들어졌음을 알 수 있음
대부분의 문서는 잘 처리되었지만, 이번 두 개 문서만 메타데이터 실수로 중요한 정보가 노출됨
다음 글에서는 PDF 포렌식 및 메타데이터 분석에 대한 기술적 심층 내용을 다룰 예정임