14P by xguru 2021-11-07 | favorite | 댓글과 토론

- "sandwich" PDF : 이미지 만 있는 PDF파일을 OCR하여 텍스트를 각 페이지의 이미지 뒤에 안 보이게 삽입한 파일
ㅤ→ 글 검색 및 선택해서 복사 가능
- 커맨드 라인 도구로 스캔한 책이나 잡지를 OCR하는데 사용
ㅤ→ 멀티컬럼 텍스트도 지원
- tesseract + unpaper + convert + ghostscript
ㅤ→ tesseract 가 지원하는 언어들 다 지원(한국어 포함)
- 리눅스/맥. 멀티프로세서 시스템에서 병렬처리 지원