OCRmyPDF - 스캔된 PDF파일에 OCR 텍스트 레이어 추가
(github.com)- 일반 PDF로 부터 검색가능한 PDF/A 파일 생성
- OCR한 문자열을 이미지 아래에 삽입해서 Copy/Paste 지원
- 기존 임베드된 이미지의 해상도는 그대로 유지
- 파일을 훼손하지 않고 OCR정보를 삽입
- PDF 이미지는 최적화해서 파일 크기를 줄임
- CPU코어 모두 활용해서 분산 처리
- Tesseract OCR 이용해서 100개 이상의 언어 그대로 지원 (한국어 포함)
- 수천 페이지 분량의 파일도 잘 스케일링해서 처리
- 수백만개의 파일로 테스트 완료
- 리눅스/맥/윈도우(WSL)
몇일 전에 올라온 pdfsandwich 보다 훨씬 더 기능이 많다고 하네요.
- pdfsandwich - 이미지와 OCR을 샌드위치한 PDF 파일 만드는 도구 https://news.hada.io/topic?id=5334