Llama-OCR: 문서를 Markdown으로 변환하는

▲

GN⁺ 2024-11-17 | parent | ★ favorite | on: Llama-OCR: 문서를 Markdown으로 변환하는 기술(llamaocr.com)

Hacker News 의견

llama-ocr의 저자는 간단한 API로 이미지를 구조화된 마크다운으로 변환하는 도구를 개발했음. 향후 PDF 파싱 및 JSON 출력 기능 추가 계획 중임
- 웹툰 예시에서 대문자로 된 대화가 패널마다 다르게 출력되는 문제를 발견했음
- 오래된 슬라이드를 디지털화하는 데 사용했으며, 슬라이드의 노란색은 실제로는 화이트 밸런스 문제였음
- 모델의 편향성을 보여주는 사례로, 슬라이드를 골동품으로 잘못 인식하여 잘못된 제목을 생성했음
- API의 파일 크기나 해상도 제한이 문서화되어 있지 않음
llama3.2-vision을 사용하여 자선 경매의 입찰서를 처리했으며, 필체가 좋지 않아도 꽤 정확했음
- CSV로 일관되게 출력되지 않는 점이 불편했음
- 문제의 규모가 100페이지 정도라 수작업 정리가 가능했음
일반 OCR 모델은 가족 사진의 텍스트를 디지털화하는 데 적합하지 않으며, Gemini Flash가 가장 우수했음
- 여전히 오류가 많아 수작업이 더 빠름
"Show HN" 게시물로 적합한지 의문이며, Llama라는 이름과 연관성이 부족함
유전 알고리즘으로 생성한 문장을 실제 원으로 그렸으나, 텍스트로 인식되지 않음
다중 페이지 PDF를 업로드했으나 지원되지 않음을 알림
HN 스크린샷을 업로드했으나 마크다운 코드가 출력되지 않음
ChatGPT API를 통해 일본어 OCR이 잘 작동함
Walmart 영수증에서 숫자 9를 0으로 잘못 인식함