행사 포스터에는 2012년 12월 10일 Mandarin Oriental에서 열린 Dubin Breast Center 2주년 자선행사로,
Elisa Port와 Ruttenberg 가족을 기리는 내용이 적혀 있음.
사회자는 Cynthia McFadden, 공연에는 여러 뮤지션이 참여함
pdftoppm과 Ghostscript(Imagemagick을 통해 호출)는 전체 페이지를 다시 래스터화하기 때문에 느림 pdfimages나 mutool로 스캔된 이미지를 직접 추출하는 게 훨씬 빠름
테스트 결과 pdfimages가 pdftoppm보다 13배 빠름
Hacker News 의견들
Pam Bondi의 법무부 팀이 이 일에 최고의 인력을 투입하지 않은 것 같음
Claude Opus가 만든 스크립트를 공유함
스크립트 링크 / 텍스트 출력 / 정리된 버전
첫 페이지 정도는 읽을 수 있는 PDF를 생성함
Tesseract는 특정 폰트로 학습시킬 수 있음. 이게 좋은 출발점이 될 것 같음
참고: Tesseract 학습 데이터 가이드
이건 이진 PDF 디코딩 문제임. 가능한 인코딩 수가 제한되어 있으므로 다음 접근을 제안함
이렇게 하면 중간 문자만 빠르게 테스트할 수 있어 전체 탐색이 선형적으로 가능함
이건 nerd snipe처럼 보이지만, 사실 브루트포스로 더 빨리 끝낼 수 있음. 76명이 한 페이지씩 타이핑하면 블로그 글이 올라오기 전에 끝남
PDF가 워낙 복잡한 포맷이라, 정부가 아예 새로운 안전한 오픈 포맷을 만들어 표준화하는 게 낫다고 생각함
DjVu는 단순하고 오픈소스 도구가 좋지만 기능이 부족함
TIFF는 오히려 PDF보다 더 복잡해서 부적합함
참고: XPS, DjVu, TIFF
justice.gov 검색창에서 같은 이메일의 여러 버전을 찾을 수 있었음
원본: EFTA00400459.pdf
추가 버전:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
여러 버전을 비교하면 더 쉽게 해결할 수 있을 듯함
“1”과 “l” 문제는 그대로지만 참고용으로 유용할 수 있음
(1, l) 조합의 모든 순열을 시도하면 어떨까 생각함. 76페이지 × 69줄 × 1회 등장이라 치면 2^5244 가지 가능성임. CPU 여분 있는 사람?
압축이 기본이라면 체크섬 덕분에 더 쉬워짐. 다만 기존 도구로는 불가능하고, 디코더 내부에 계측된 테스트 하네스를 직접 만들어야 함
행사 세부 정보: Dubin Breast Center 2nd Annual Benefit (Archive)
Elisa Port와 Ruttenberg 가족을 기리는 내용이 적혀 있음.
사회자는 Cynthia McFadden, 공연에는 여러 뮤지션이 참여함
pdftoppm과 Ghostscript(Imagemagick을 통해 호출)는 전체 페이지를 다시 래스터화하기 때문에 느림
pdfimages나 mutool로 스캔된 이미지를 직접 추출하는 게 훨씬 빠름
테스트 결과 pdfimages가 pdftoppm보다 13배 빠름