GN⁺: Llama-OCR: 문서를 Markdown으로 변환하는 기술
(llamaocr.com)-
프로젝트 소개
- 이 프로젝트는
llama-ocr
와Together AIOCR
을 사용하여 이미지를 구조화된 Markdown으로 변환하는 도구임. - 사용자는 이미지를 업로드하여 텍스트를 추출하고 Markdown 형식으로 변환할 수 있음.
- 이 프로젝트는
-
주요 기능
- 이미지 업로드 기능 제공
- 이미지에서 텍스트를 추출하여 Markdown으로 변환
- 예제 이미지를 제공하여 사용자가 기능을 테스트할 수 있음
-
코드 예시
-
llama-ocr
라이브러리를 사용하여 이미지에서 텍스트를 추출하는 코드 예시 제공 -
ocr
함수에 이미지 파일 경로와 API 키를 전달하여 Markdown을 생성함
-
-
프로젝트의 중요성
- 이 프로젝트는 이미지에서 텍스트를 쉽게 추출하고 Markdown으로 변환할 수 있는 기능을 제공하여 문서 작업의 효율성을 높임.
- 기존의 OCR 도구와 비교하여 간편한 사용성과 Markdown 변환 기능을 제공함.
Hacker News 의견
-
llama-ocr의 저자는 간단한 API로 이미지를 구조화된 마크다운으로 변환하는 도구를 개발했음. 향후 PDF 파싱 및 JSON 출력 기능 추가 계획 중임
- 웹툰 예시에서 대문자로 된 대화가 패널마다 다르게 출력되는 문제를 발견했음
- 오래된 슬라이드를 디지털화하는 데 사용했으며, 슬라이드의 노란색은 실제로는 화이트 밸런스 문제였음
- 모델의 편향성을 보여주는 사례로, 슬라이드를 골동품으로 잘못 인식하여 잘못된 제목을 생성했음
- API의 파일 크기나 해상도 제한이 문서화되어 있지 않음
-
llama3.2-vision을 사용하여 자선 경매의 입찰서를 처리했으며, 필체가 좋지 않아도 꽤 정확했음
- CSV로 일관되게 출력되지 않는 점이 불편했음
- 문제의 규모가 100페이지 정도라 수작업 정리가 가능했음
-
일반 OCR 모델은 가족 사진의 텍스트를 디지털화하는 데 적합하지 않으며, Gemini Flash가 가장 우수했음
- 여전히 오류가 많아 수작업이 더 빠름
-
"Show HN" 게시물로 적합한지 의문이며, Llama라는 이름과 연관성이 부족함
-
유전 알고리즘으로 생성한 문장을 실제 원으로 그렸으나, 텍스트로 인식되지 않음
-
다중 페이지 PDF를 업로드했으나 지원되지 않음을 알림
-
HN 스크린샷을 업로드했으나 마크다운 코드가 출력되지 않음
-
ChatGPT API를 통해 일본어 OCR이 잘 작동함
-
Walmart 영수증에서 숫자 9를 0으로 잘못 인식함