25P by xguru 12일전 | ★ favorite | 댓글 2개
  • PDF 및 JPG/PNG문서를 자연스러운 읽기 순서를 유지하면서 일반 텍스트로 변환하는 오픈 소스 도구
  • 대량의 문서를 빠르게 처리할 수 있도록 설계되었으며, 표, 수식, 손글씨 등을 지원함
  • 학술 논문, 기술 문서, 기타 참고 자료를 기반으로 학습됨
  • 고유한 프롬프팅 기법을 활용하여 정확도를 높이고 환각(hallucination)을 줄이는 방식 사용
  • 현재 모델은 영어 문서에 최적화되어 있으며, 다른 언어는 제대로 지원되지 않을 가능성이 높음
  • 데모 페이지에서 직접 문서를 테스트해볼 수 있음
  • 100만 페이지 변환 비용이 약 $190 USD로 경제적인 운영 가능
  • 최신 NVIDIA GPU 필요 (RTX 4090, L40S, A100, H100 테스트 완료)
  • 온라인 데모 에서 테스트 해보기 (PDF, JPG, PNG)

툴킷 오픈소스에 포함된 코드들

  • ChatGPT 4o 기반 프롬프팅 전략 (buildsilver.py) : 자연스러운 텍스트 파싱 성능을 극대화하는 기법 포함
  • 파이프라인 비교 평가 도구 (runeval.py)
  • 언어 필터링 및 SEO 스팸 제거 기능 (filter.py)
  • Qwen2-VL 및 Molmo-O 파인튜닝 코드 (train.py)
  • 대량의 PDF를 처리하는 파이프라인 (pipeline.py) : Sglang을 사용하여 수백만 개의 PDF를 처리 가능
  • Dolma 문서 뷰어 (dolmaviewer.py) : PDF에서 변환된 Dolma 형식의 문서를 시각적으로 확인 가능

현재는 윈도우에선 돌아가지 않는군요..

GPU 없이 동작하는 라이브러리들이 아직은 쓸모가있겠네요