36P by neo 10일전 | ★ favorite | 댓글 1개
  • 완전히 무료이고 오픈소스. 구독/유료기능/숨겨진 코드 없음
  • 까다로운 원고의 고품질 처리부터 인쇄물의 대량 전체 텍스트 인식까지 유연하게 적용 가능
  • 강력한 레이아웃 및 텍스트 어노테이션 지원
    • LAREX 편집기를 사용하여 레이아웃과 텍스트 요소에 수동으로 주석을 달거나 수정하거나 비교
  • OCR-D 에코시스템과 완전히 호환됨
  • 사용성을 염두에 둔 디자인: 코드/CLI 를 쓰지않고도 UI로 복잡한 OCR 워크플로우를 생성할 수 있음
  • 쉬운 크로스 플랫폼 개발 : OS 종류와 상관없이 Docker 와 1개의 명령으로 실행 가능
Hacker News 의견
  • 복잡한 세분화 파이프라인은 몇 년 전에는 필요했지만 이제는 오류가 많고 모델에서 중요한 문맥을 빼앗음. 필기체로 넘어가려면 문맥이 필요함

    • 역사적 필기체를 해독하려면 전문가들은 전체 문서가 필요하다고 말할 것임
    • 문자 인식이 아닌 텍스트 인식을 끝까지 해야 함
    • CER로 모델을 평가하는 것은 좋지 않음
    • 텍스트 인식이 15년 전 기계 번역의 실수를 반복하고 있음
  • OCR4all은 초기 현대 인쇄물의 디지털 텍스트 복구와 인식을 위한 소프트웨어임

    • 복잡한 인쇄 유형과 불균일한 레이아웃이 일반 텍스트 인식 소프트웨어의 능력을 시험함
    • Calamari-OCR 기반으로 구축된 것 같음
  • OCR4all은 비기술적 사용자의 필요를 명확하고 직관적으로 다루고 있음

    • 리눅스에서 터미널을 열고 명령어를 입력하라는 지침이 있음
    • 비기술적 사용자에게 어떻게 도움이 되는지 의문임
  • Apple의 Vision Framework는 Tesseract보다 빠르고 정확한 텍스트 인식 라이브러리를 제공함

    • 거의 모든 이미지 형식을 처리할 수 있음
    • 간단한 CLI 도구와 Python 래퍼를 작성함
  • Tesseract와 LLM을 결합하여 오류를 수정하고 형식을 개선하는 것이 현재 속도/효율성/정확성의 최적점임

    • 영어 프롬프트 텍스트를 편집하여 입력 문서에 특정한 측면을 우선시할 수 있음
  • AI 지원 OCR API를 개발함

    • Tesseract와 Poppler-utils를 결합하여 문서 세그먼트를 지능적으로 추출함
    • 여러 Vision LLM 모델을 쉽게 확장할 수 있음
    • 전체 AI 에이전트 API를 Dockerized 컨테이너로 출력함
  • 이 워크플로우는 역사적 인쇄 문서를 디지털화하는 것임

    • 블랙레터 활자체로 된 오래된 공지를 보존하는 것과 관련됨
  • OCR4all은 다양한 오픈 소스 솔루션을 결합하여 자동 텍스트 인식 워크플로우를 제공함

    • OCR-D 기반으로 보이며, 이는 Tesseract, Kraken, DUP-ocropy, Calamari-OCR에 기반함
    • Transkribus의 오픈 소스 대안으로 보임
    • eScriptorium도 또 다른 대안임
  • 새로운 SOTA OCR 엔진인지 아니면 다른 알려진 엔진을 사용하는 도구인지 궁금함

    • 랜딩 페이지가 더 명확했으면 좋겠음
  • Tesseract로 대부분 해결된 줄 알았던 OCR이지만, 결과 PDF의 MRC 압축을 위한 라이브러리나 구현을 찾고 있음

    • 상업적 제품은 비용이 많이 들고, 이미지 레이어를 분리하고 압축하여 다시 결합하는 것이 어려운 문제임