# Llama-OCR: 문서를 Markdown으로 변환하는 기술

> Clean Markdown view of GeekNews topic #17801. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17801](https://news.hada.io/topic?id=17801)
- GeekNews Markdown: [https://news.hada.io/topic/17801.md](https://news.hada.io/topic/17801.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-17T10:03:46+09:00
- Updated: 2024-11-17T10:03:46+09:00
- Original source: [llamaocr.com](https://llamaocr.com/)
- Points: 3
- Comments: 1

## Topic Body

- **프로젝트 소개**
  - 이 프로젝트는 `llama-ocr`와 `Together AIOCR`을 사용하여 이미지를 구조화된 Markdown으로 변환하는 도구임.
  - 사용자는 이미지를 업로드하여 텍스트를 추출하고 Markdown 형식으로 변환할 수 있음.

- **주요 기능**
  - 이미지 업로드 기능 제공
  - 이미지에서 텍스트를 추출하여 Markdown으로 변환
  - 예제 이미지를 제공하여 사용자가 기능을 테스트할 수 있음

- **코드 예시**
  - `llama-ocr` 라이브러리를 사용하여 이미지에서 텍스트를 추출하는 코드 예시 제공
  - `ocr` 함수에 이미지 파일 경로와 API 키를 전달하여 Markdown을 생성함

- **프로젝트의 중요성**
  - 이 프로젝트는 이미지에서 텍스트를 쉽게 추출하고 Markdown으로 변환할 수 있는 기능을 제공하여 문서 작업의 효율성을 높임.
  - 기존의 OCR 도구와 비교하여 간편한 사용성과 Markdown 변환 기능을 제공함.

## Comments


### Comment 31372

- Author: neo
- Created: 2024-11-17T10:03:46+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42154410) 
- llama-ocr의 저자는 간단한 API로 이미지를 구조화된 마크다운으로 변환하는 도구를 개발했음. 향후 PDF 파싱 및 JSON 출력 기능 추가 계획 중임
  - 웹툰 예시에서 대문자로 된 대화가 패널마다 다르게 출력되는 문제를 발견했음
  - 오래된 슬라이드를 디지털화하는 데 사용했으며, 슬라이드의 노란색은 실제로는 화이트 밸런스 문제였음
  - 모델의 편향성을 보여주는 사례로, 슬라이드를 골동품으로 잘못 인식하여 잘못된 제목을 생성했음
  - API의 파일 크기나 해상도 제한이 문서화되어 있지 않음

- llama3.2-vision을 사용하여 자선 경매의 입찰서를 처리했으며, 필체가 좋지 않아도 꽤 정확했음
  - CSV로 일관되게 출력되지 않는 점이 불편했음
  - 문제의 규모가 100페이지 정도라 수작업 정리가 가능했음

- 일반 OCR 모델은 가족 사진의 텍스트를 디지털화하는 데 적합하지 않으며, Gemini Flash가 가장 우수했음
  - 여전히 오류가 많아 수작업이 더 빠름

- "Show HN" 게시물로 적합한지 의문이며, Llama라는 이름과 연관성이 부족함

- 유전 알고리즘으로 생성한 문장을 실제 원으로 그렸으나, 텍스트로 인식되지 않음

- 다중 페이지 PDF를 업로드했으나 지원되지 않음을 알림

- HN 스크린샷을 업로드했으나 마크다운 코드가 출력되지 않음

- ChatGPT API를 통해 일본어 OCR이 잘 작동함

- Walmart 영수증에서 숫자 9를 0으로 잘못 인식함