▲GN⁺ 2025-02-15 | parent | ★ favorite | on: OCR4all - 모두를 위한 OCR(ocr4all.org)Hacker News 의견 복잡한 세분화 파이프라인은 몇 년 전에는 필요했지만 이제는 오류가 많고 모델에서 중요한 문맥을 빼앗음. 필기체로 넘어가려면 문맥이 필요함 역사적 필기체를 해독하려면 전문가들은 전체 문서가 필요하다고 말할 것임 문자 인식이 아닌 텍스트 인식을 끝까지 해야 함 CER로 모델을 평가하는 것은 좋지 않음 텍스트 인식이 15년 전 기계 번역의 실수를 반복하고 있음 OCR4all은 초기 현대 인쇄물의 디지털 텍스트 복구와 인식을 위한 소프트웨어임 복잡한 인쇄 유형과 불균일한 레이아웃이 일반 텍스트 인식 소프트웨어의 능력을 시험함 Calamari-OCR 기반으로 구축된 것 같음 OCR4all은 비기술적 사용자의 필요를 명확하고 직관적으로 다루고 있음 리눅스에서 터미널을 열고 명령어를 입력하라는 지침이 있음 비기술적 사용자에게 어떻게 도움이 되는지 의문임 Apple의 Vision Framework는 Tesseract보다 빠르고 정확한 텍스트 인식 라이브러리를 제공함 거의 모든 이미지 형식을 처리할 수 있음 간단한 CLI 도구와 Python 래퍼를 작성함 Tesseract와 LLM을 결합하여 오류를 수정하고 형식을 개선하는 것이 현재 속도/효율성/정확성의 최적점임 영어 프롬프트 텍스트를 편집하여 입력 문서에 특정한 측면을 우선시할 수 있음 AI 지원 OCR API를 개발함 Tesseract와 Poppler-utils를 결합하여 문서 세그먼트를 지능적으로 추출함 여러 Vision LLM 모델을 쉽게 확장할 수 있음 전체 AI 에이전트 API를 Dockerized 컨테이너로 출력함 이 워크플로우는 역사적 인쇄 문서를 디지털화하는 것임 블랙레터 활자체로 된 오래된 공지를 보존하는 것과 관련됨 OCR4all은 다양한 오픈 소스 솔루션을 결합하여 자동 텍스트 인식 워크플로우를 제공함 OCR-D 기반으로 보이며, 이는 Tesseract, Kraken, DUP-ocropy, Calamari-OCR에 기반함 Transkribus의 오픈 소스 대안으로 보임 eScriptorium도 또 다른 대안임 새로운 SOTA OCR 엔진인지 아니면 다른 알려진 엔진을 사용하는 도구인지 궁금함 랜딩 페이지가 더 명확했으면 좋겠음 Tesseract로 대부분 해결된 줄 알았던 OCR이지만, 결과 PDF의 MRC 압축을 위한 라이브러리나 구현을 찾고 있음 상업적 제품은 비용이 많이 들고, 이미지 레이어를 분리하고 압축하여 다시 결합하는 것이 어려운 문제임
Hacker News 의견
복잡한 세분화 파이프라인은 몇 년 전에는 필요했지만 이제는 오류가 많고 모델에서 중요한 문맥을 빼앗음. 필기체로 넘어가려면 문맥이 필요함
OCR4all은 초기 현대 인쇄물의 디지털 텍스트 복구와 인식을 위한 소프트웨어임
OCR4all은 비기술적 사용자의 필요를 명확하고 직관적으로 다루고 있음
Apple의 Vision Framework는 Tesseract보다 빠르고 정확한 텍스트 인식 라이브러리를 제공함
Tesseract와 LLM을 결합하여 오류를 수정하고 형식을 개선하는 것이 현재 속도/효율성/정확성의 최적점임
AI 지원 OCR API를 개발함
이 워크플로우는 역사적 인쇄 문서를 디지털화하는 것임
OCR4all은 다양한 오픈 소스 솔루션을 결합하여 자동 텍스트 인식 워크플로우를 제공함
새로운 SOTA OCR 엔진인지 아니면 다른 알려진 엔진을 사용하는 도구인지 궁금함
Tesseract로 대부분 해결된 줄 알았던 OCR이지만, 결과 PDF의 MRC 압축을 위한 라이브러리나 구현을 찾고 있음