- PDF 및 JPG/PNG문서를 자연스러운 읽기 순서를 유지하면서 일반 텍스트로 변환하는 오픈 소스 도구
- 대량의 문서를 빠르게 처리할 수 있도록 설계되었으며, 표, 수식, 손글씨 등을 지원함
- 학술 논문, 기술 문서, 기타 참고 자료를 기반으로 학습됨
- 고유한 프롬프팅 기법을 활용하여 정확도를 높이고 환각(hallucination)을 줄이는 방식 사용
- 현재 모델은 영어 문서에 최적화되어 있으며, 다른 언어는 제대로 지원되지 않을 가능성이 높음
- 데모 페이지에서 직접 문서를 테스트해볼 수 있음
- 100만 페이지 변환 비용이 약 $190 USD로 경제적인 운영 가능
- 최신 NVIDIA GPU 필요 (RTX 4090, L40S, A100, H100 테스트 완료)
-
온라인 데모 에서 테스트 해보기 (PDF, JPG, PNG)
툴킷 오픈소스에 포함된 코드들
-
ChatGPT 4o 기반 프롬프팅 전략 (
buildsilver.py
) : 자연스러운 텍스트 파싱 성능을 극대화하는 기법 포함
-
파이프라인 비교 평가 도구 (
runeval.py
)
-
언어 필터링 및 SEO 스팸 제거 기능 (
filter.py
)
-
Qwen2-VL 및 Molmo-O 파인튜닝 코드 (
train.py
)
-
대량의 PDF를 처리하는 파이프라인 (
pipeline.py
) : Sglang을 사용하여 수백만 개의 PDF를 처리 가능
-
Dolma 문서 뷰어 (
dolmaviewer.py
) : PDF에서 변환된 Dolma 형식의 문서를 시각적으로 확인 가능