# OCR4all - 모두를 위한 OCR

> Clean Markdown view of GeekNews topic #19237. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19237](https://news.hada.io/topic?id=19237)
- GeekNews Markdown: [https://news.hada.io/topic/19237.md](https://news.hada.io/topic/19237.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-15T09:47:11+09:00
- Updated: 2025-02-15T09:47:11+09:00
- Original source: [ocr4all.org](https://www.ocr4all.org/)
- Points: 39
- Comments: 1

## Summary

OCR4all은 완전히 무료이며 오픈소스로, 까다로운 원고부터 대량의 인쇄물까지 유연하게 고품질 텍스트 인식이 가능합니다. LAREX 편집기를 통해 레이아웃과 텍스트 요소에 수동으로 주석을 달거나 수정할 수 있으며, OCR-D 에코시스템과 완전히 호환됩니다. 또한, 사용성을 고려한 디자인으로 코드나 CLI 없이도 UI를 통해 복잡한 OCR 워크플로우를 생성할 수 있으며, Docker를 이용해 OS 종류와 상관없이 쉽게 실행할 수 있습니다.

## Topic Body

- 완전히 무료이고 오픈소스. 구독/유료기능/숨겨진 코드 없음   
- 까다로운 원고의 고품질 처리부터 인쇄물의 대량 전체 텍스트 인식까지 유연하게 적용 가능   
- 강력한 레이아웃 및 텍스트 어노테이션 지원   
  - LAREX 편집기를 사용하여 레이아웃과 텍스트 요소에 수동으로 주석을 달거나 수정하거나 비교  
- OCR-D 에코시스템과 완전히 호환됨   
- 사용성을 염두에 둔 디자인: 코드/CLI 를 쓰지않고도 UI로 복잡한 OCR 워크플로우를 생성할 수 있음   
- 쉬운 크로스 플랫폼 개발 : OS 종류와 상관없이 Docker 와 1개의 명령으로 실행 가능

## Comments



### Comment 34593

- Author: neo
- Created: 2025-02-15T09:47:11+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43043671) 
* 복잡한 세분화 파이프라인은 몇 년 전에는 필요했지만 이제는 오류가 많고 모델에서 중요한 문맥을 빼앗음. 필기체로 넘어가려면 문맥이 필요함
  - 역사적 필기체를 해독하려면 전문가들은 전체 문서가 필요하다고 말할 것임
  - 문자 인식이 아닌 텍스트 인식을 끝까지 해야 함
  - CER로 모델을 평가하는 것은 좋지 않음
  - 텍스트 인식이 15년 전 기계 번역의 실수를 반복하고 있음

* OCR4all은 초기 현대 인쇄물의 디지털 텍스트 복구와 인식을 위한 소프트웨어임
  - 복잡한 인쇄 유형과 불균일한 레이아웃이 일반 텍스트 인식 소프트웨어의 능력을 시험함
  - Calamari-OCR 기반으로 구축된 것 같음

* OCR4all은 비기술적 사용자의 필요를 명확하고 직관적으로 다루고 있음
  - 리눅스에서 터미널을 열고 명령어를 입력하라는 지침이 있음
  - 비기술적 사용자에게 어떻게 도움이 되는지 의문임

* Apple의 Vision Framework는 Tesseract보다 빠르고 정확한 텍스트 인식 라이브러리를 제공함
  - 거의 모든 이미지 형식을 처리할 수 있음
  - 간단한 CLI 도구와 Python 래퍼를 작성함

* Tesseract와 LLM을 결합하여 오류를 수정하고 형식을 개선하는 것이 현재 속도/효율성/정확성의 최적점임
  - 영어 프롬프트 텍스트를 편집하여 입력 문서에 특정한 측면을 우선시할 수 있음

* AI 지원 OCR API를 개발함
  - Tesseract와 Poppler-utils를 결합하여 문서 세그먼트를 지능적으로 추출함
  - 여러 Vision LLM 모델을 쉽게 확장할 수 있음
  - 전체 AI 에이전트 API를 Dockerized 컨테이너로 출력함

* 이 워크플로우는 역사적 인쇄 문서를 디지털화하는 것임
  - 블랙레터 활자체로 된 오래된 공지를 보존하는 것과 관련됨

* OCR4all은 다양한 오픈 소스 솔루션을 결합하여 자동 텍스트 인식 워크플로우를 제공함
  - OCR-D 기반으로 보이며, 이는 Tesseract, Kraken, DUP-ocropy, Calamari-OCR에 기반함
  - Transkribus의 오픈 소스 대안으로 보임
  - eScriptorium도 또 다른 대안임

* 새로운 SOTA OCR 엔진인지 아니면 다른 알려진 엔진을 사용하는 도구인지 궁금함
  - 랜딩 페이지가 더 명확했으면 좋겠음

* Tesseract로 대부분 해결된 줄 알았던 OCR이지만, 결과 PDF의 MRC 압축을 위한 라이브러리나 구현을 찾고 있음
  - 상업적 제품은 비용이 많이 들고, 이미지 레이어를 분리하고 압축하여 다시 결합하는 것이 어려운 문제임
