# OlmOCR - PDF에서 텍스트를 추출하는 오픈 소스 도구

> Clean Markdown view of GeekNews topic #19525. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19525](https://news.hada.io/topic?id=19525)
- GeekNews Markdown: [https://news.hada.io/topic/19525.md](https://news.hada.io/topic/19525.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-03-03T09:51:15+09:00
- Updated: 2025-03-03T09:51:15+09:00
- Original source: [github.com/allenai](https://github.com/allenai/olmocr)
- Points: 25
- Comments: 2

## Summary

OlmOCR은 PDF 및 JPG/PNG 문서를 자연스러운 읽기 순서를 유지하면서 일반 텍스트로 변환하는 오픈 소스 도구로, 대량의 문서를 빠르게 처리할 수 있도록 설계되었으며 표, 수식, 손글씨 등을 지원합니다. 현재는 영어 문서에 최적화되어 있으며, 최신 NVIDIA GPU가 필요합니다. 또한, OlmOCR은 ChatGPT 4o 기반 프롬프팅 전략을 포함하여 정확도를 높이고 환각을 줄이는 방식을 사용합니다.

## Topic Body

- PDF 및 JPG/PNG문서를 자연스러운 읽기 순서를 유지하면서 일반 텍스트로 변환하는 오픈 소스 도구  
- 대량의 문서를 빠르게 처리할 수 있도록 설계되었으며, 표, 수식, 손글씨 등을 지원함  
- 학술 논문, 기술 문서, 기타 참고 자료를 기반으로 학습됨  
- 고유한 프롬프팅 기법을 활용하여 정확도를 높이고 환각(hallucination)을 줄이는 방식 사용  
- 현재 모델은 영어 문서에 최적화되어 있으며, 다른 언어는 제대로 지원되지 않을 가능성이 높음  
- 데모 페이지에서 직접 문서를 테스트해볼 수 있음  
- 100만 페이지 변환 비용이 약 $190 USD로 경제적인 운영 가능  
- 최신 NVIDIA GPU 필요 (RTX 4090, L40S, A100, H100 테스트 완료)  
- [온라인 데모](https://olmocr.allenai.org/) 에서 테스트 해보기 (PDF, JPG, PNG)  
  
### 툴킷 오픈소스에 포함된 코드들   
- **ChatGPT 4o 기반 프롬프팅 전략** (`buildsilver.py`) : 자연스러운 텍스트 파싱 성능을 극대화하는 기법 포함  
- **파이프라인 비교 평가 도구** (`runeval.py`)  
- **언어 필터링 및 SEO 스팸 제거 기능** (`filter.py`)  
- **Qwen2-VL 및 Molmo-O 파인튜닝 코드** (`train.py`)  
- **대량의 PDF를 처리하는 파이프라인** (`pipeline.py`) : Sglang을 사용하여 수백만 개의 PDF를 처리 가능  
- **Dolma 문서 뷰어** (`dolmaviewer.py`)  : PDF에서 변환된 Dolma 형식의 문서를 시각적으로 확인 가능

## Comments


### Comment 35478

- Author: kleinstein
- Created: 2025-03-06T05:04:39+09:00
- Points: 1

현재는 윈도우에선 돌아가지 않는군요..

### Comment 35374

- Author: kaydash
- Created: 2025-03-03T21:41:13+09:00
- Points: 1

GPU 없이 동작하는 라이브러리들이 아직은 쓸모가있겠네요