OlmOCR - PDF에서 텍스트를 추출하는 오픈 소스 도구

xguru · 2025-03-03T09:51:15+09:00

PDF 및 JPG/PNG문서를 자연스러운 읽기 순서를 유지하면서 일반 텍스트로 변환하는 오픈 소스 도구 대량의 문서를 빠르게 처리할 수 있도록 설계되었으며, 표, 수식, 손글씨 등을 지원함 학술 논문, 기술 문서, 기타 참고 자료를 기반으로 학습됨 고유한 프롬프팅 기법을 활용하여 정확도를 높이고 환각(hallucination)을 줄이는 방식 사용 현재 모델은 영어 문서에 최적화되어 있으며, 다른 언어는 제대로 지원되지 않을 가능성이 높음 데모 페이지에서 직접 문서를 테스트해볼 수 있음 100만 페이지 변환 비용이 약 $190 USD로 경제적인 운영 가능 최신 NVIDIA GPU 필요 (RTX 4090, L40S, A100, H100 테스트 완료) 온라인 데모 에서 테스트 해보기 (PDF, JPG, PNG) 툴킷 오픈소스에 포함된 코드들 ChatGPT 4o 기반 프롬프팅 전략 (buildsilver.py) : 자연스러운 텍스트 파싱 성능을 극대화하는 기법 포함 파이프라인 비교 평가 도구 (runeval.py) 언어 필터링 및 SEO 스팸 제거 기능 (filter.py) Qwen2-VL 및 Molmo-O 파인튜닝 코드 (train.py) 대량의 PDF를 처리하는 파이프라인 (pipeline.py) : Sglang을 사용하여 수백만 개의 PDF를 처리 가능 Dolma 문서 뷰어 (dolmaviewer.py) : PDF에서 변환된 Dolma 형식의 문서를 시각적으로 확인 가능