OCR4all - 모두를 위한 OCR

▲

GN⁺ 2025-02-15 | parent | ★ favorite | on: OCR4all - 모두를 위한 OCR(ocr4all.org)

Hacker News 의견

복잡한 세분화 파이프라인은 몇 년 전에는 필요했지만 이제는 오류가 많고 모델에서 중요한 문맥을 빼앗음. 필기체로 넘어가려면 문맥이 필요함
- 역사적 필기체를 해독하려면 전문가들은 전체 문서가 필요하다고 말할 것임
- 문자 인식이 아닌 텍스트 인식을 끝까지 해야 함
- CER로 모델을 평가하는 것은 좋지 않음
- 텍스트 인식이 15년 전 기계 번역의 실수를 반복하고 있음
OCR4all은 초기 현대 인쇄물의 디지털 텍스트 복구와 인식을 위한 소프트웨어임
- 복잡한 인쇄 유형과 불균일한 레이아웃이 일반 텍스트 인식 소프트웨어의 능력을 시험함
- Calamari-OCR 기반으로 구축된 것 같음
OCR4all은 비기술적 사용자의 필요를 명확하고 직관적으로 다루고 있음
- 리눅스에서 터미널을 열고 명령어를 입력하라는 지침이 있음
- 비기술적 사용자에게 어떻게 도움이 되는지 의문임
Apple의 Vision Framework는 Tesseract보다 빠르고 정확한 텍스트 인식 라이브러리를 제공함
- 거의 모든 이미지 형식을 처리할 수 있음
- 간단한 CLI 도구와 Python 래퍼를 작성함
Tesseract와 LLM을 결합하여 오류를 수정하고 형식을 개선하는 것이 현재 속도/효율성/정확성의 최적점임
- 영어 프롬프트 텍스트를 편집하여 입력 문서에 특정한 측면을 우선시할 수 있음
AI 지원 OCR API를 개발함
- Tesseract와 Poppler-utils를 결합하여 문서 세그먼트를 지능적으로 추출함
- 여러 Vision LLM 모델을 쉽게 확장할 수 있음
- 전체 AI 에이전트 API를 Dockerized 컨테이너로 출력함
이 워크플로우는 역사적 인쇄 문서를 디지털화하는 것임
- 블랙레터 활자체로 된 오래된 공지를 보존하는 것과 관련됨
OCR4all은 다양한 오픈 소스 솔루션을 결합하여 자동 텍스트 인식 워크플로우를 제공함
- OCR-D 기반으로 보이며, 이는 Tesseract, Kraken, DUP-ocropy, Calamari-OCR에 기반함
- Transkribus의 오픈 소스 대안으로 보임
- eScriptorium도 또 다른 대안임
새로운 SOTA OCR 엔진인지 아니면 다른 알려진 엔진을 사용하는 도구인지 궁금함
- 랜딩 페이지가 더 명확했으면 좋겠음
Tesseract로 대부분 해결된 줄 알았던 OCR이지만, 결과 PDF의 MRC 압축을 위한 라이브러리나 구현을 찾고 있음
- 상업적 제품은 비용이 많이 들고, 이미지 레이어를 분리하고 압축하여 다시 결합하는 것이 어려운 문제임