# Mistral OCR 공개- 최고의 문서 이해 API

> Clean Markdown view of GeekNews topic #19605. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19605](https://news.hada.io/topic?id=19605)
- GeekNews Markdown: [https://news.hada.io/topic/19605.md](https://news.hada.io/topic/19605.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-07T09:42:41+09:00
- Updated: 2025-03-07T09:42:41+09:00
- Original source: [mistral.ai](https://mistral.ai/fr/news/mistral-ocr)
- Points: 13
- Comments: 2

## Summary

Mistral OCR은 PDF 및 이미지에서 텍스트, 미디어, 수식, 테이블을 추출하여 구조화된 출력으로 변환하는 세계 최고의 문서 이해 API로, 복잡한 문서 이해 능력과 다국어 및 다중 모달 지원을 특징으로 합니다. 이 API는 단일 노드에서 분당 2000페이지를 처리할 수 있는 빠른 속도를 자랑하며, 온프레미스 옵션을 통해 기업 내 기밀 문서 처리에 적합합니다. 또한, 과학 연구 디지털화, 역사 및 문화유산 보존, 고객 서비스 개선 등 다양한 분야에서 활용될 수 있습니다.

## Topic Body

- Mistral OCR은 **세계 최고의 문서 이해 API**로, 기존 모델보다 문서를 더 정확하게 이해하고 분석하는 능력을 제공  
- PDF 및 이미지에서 **텍스트, 미디어, 수식, 테이블**을 추출하여 구조화된 출력으로 변환  
- API는 현재 **1000페이지/1$** (배치 처리 시 페이지당 비용 절반)로 제공  
### Mistral OCR의 주요 특징  
- **복잡한 문서 이해 능력**: 표, 이미지, 수식, LaTeX 서식까지 정확히 해석  
- **다국어 및 다중 모달 지원**: 다양한 언어, 글꼴, 스크립트 지원  
- **업계 최고 수준의 성능**: 다른 OCR 모델보다 높은 정확도를 기록  
- **최고 속도**: 단일 노드에서 분당 2000페이지 처리 가능  
- **문서를 프롬프트로 활용 가능**: JSON 등의 구조화된 출력 지원  
- **온프레미스(Self-host) 옵션 제공**: 기밀 문서 처리를 원하는 기업에 적합  
  
### 복잡한 문서 이해  
- Mistral OCR은 **과학 논문, 그래프, 수식, 표, 이미지**를 포함한 문서를 심층적으로 분석할 수 있음  
- 예제 노트북을 통해 OCR이 PDF에서 텍스트와 이미지를 어떻게 추출하는지 확인 가능 ([예제](https://colab.research.google.com/drive/11NdqWVwC_TtJyKT6cmuap4l9SryAeeVt?usp=sharing))  
  
### 성능 비교 (벤치마크)  
Mistral OCR은 **다른 주요 OCR 모델**과 비교했을 때 전반적인 성능에서 가장 높은 점수를 기록함  
- **전반적 성능(Overall)**: 94.89 (다른 모델보다 높은 수치)  
- **수식(Math) 분석 성능**: 94.29 (GPT-4o보다 7점 이상 높음)  
- **다국어 인식 성능**: 89.55  
- **스캔 문서(Scanned) 처리 성능**: 98.96  
- **테이블(Table) 인식 성능**: 96.12 (다른 모델 대비 가장 뛰어남)  
  
### 다국어 지원  
Mistral OCR은 **전 세계 다양한 언어와 스크립트를 처리 가능**. 주요 모델과 비교 시 **모든 언어에서 최고의 OCR 성능을 기록**  
- **러시아어(ru)**: 99.09 (Azure OCR 97.35, Google Doc AI 95.56)  
- **프랑스어(fr)**: 99.20 (Azure 97.50, Google 96.36)  
- **중국어(zh)**: 97.11 (Azure 91.40, Google 90.89)  
- **독일어(de)**: 99.51 (Azure 98.39, Google 97.09)  
  
### 빠른 처리 속도  
- Mistral OCR은 기존 OCR 모델보다 가벼우며, **단일 노드에서 최대 2000페이지/분** 처리 가능  
- 대량 문서 처리가 필요한 환경에서 지속적인 학습과 개선을 지원  
  
### 문서를 프롬프트로 활용 (Doc-as-prompt)  
  
- 문서에서 특정 정보를 추출하고 **JSON 등의 구조화된 출력** 생성 가능  
- **추출된 데이터를 후속 AI 프로세스와 연결하여 자동화 가능**  
- **예:** 법률 문서에서 특정 조항 추출 후 AI 챗봇 응답 생성  
  
### 온프레미스(Self-host) 옵션  
  
- **기업 내 기밀 문서 처리**가 필요한 경우 자체 호스팅 가능  
- 데이터 프라이버시와 보안이 중요한 기관 및 기업에 적합  
  
### 주요 활용 사례  
  
1. **과학 연구 디지털화**: 논문과 저널을 AI가 처리할 수 있는 형식으로 변환하여 연구 협업 가속화  
2. **역사 및 문화유산 보존**: 박물관 및 비영리 단체가 역사적 문서를 디지털화하여 보존 및 공유 가능  
3. **고객 서비스 개선**: 매뉴얼과 문서를 인덱싱하여 고객 응대 속도 향상  
4. **디자인, 교육, 법률 문서 AI 활용**: 엔지니어링 도면, 강의 자료, 규제 서류 등을 인덱싱하여 AI 기반 정보 검색 가능  
  
### Mistral OCR 체험하기  
  
- Mistral OCR은 **Le Chat에서 무료 체험 가능** ([Le Chat](http://chat.mistral.ai/))  
- API는 **la Plateforme**에서 사용 가능 ([API 사용](http://console.mistral.ai/))  
- 온프레미스 배포 및 기업용 맞춤 솔루션도 제공됨 ([문의](https://mistral.ai/contact))

## Comments



### Comment 35817

- Author: taeha
- Created: 2025-03-13T11:41:42+09:00
- Points: 1

한국어 성능에 대한 내용은 없지만 뽑아보니 나쁘지 않아 보이네요

### Comment 35538

- Author: neo
- Created: 2025-03-07T09:42:41+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43282905) 
- "나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함
  - 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음
  - 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음
  - 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임

- Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음
  - 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음
  - Marker는 H100에서 초당 20~120페이지를 추론할 수 있음
  - 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함
  - Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움

- OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음
  - 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음
  - HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음
  - Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음

- OCR 기술이 거의 해결된 상태에 도달하고 있음
  - 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음
  - LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임
  - 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함

- 의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음
  - 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음

- 기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음
  - 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음

- 매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음
  - 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨
  - PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음

- 특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음
  - 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함
  - Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함

- VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함
