Mistral OCR 공개- 최고의 문서 이해 API

(mistral.ai)

13P by GN⁺ 2025-03-07 | ★ favorite | 댓글 2개

Mistral OCR은 세계 최고의 문서 이해 API로, 기존 모델보다 문서를 더 정확하게 이해하고 분석하는 능력을 제공
PDF 및 이미지에서 텍스트, 미디어, 수식, 테이블을 추출하여 구조화된 출력으로 변환
API는 현재 1000페이지/1$ (배치 처리 시 페이지당 비용 절반)로 제공

Mistral OCR의 주요 특징

복잡한 문서 이해 능력: 표, 이미지, 수식, LaTeX 서식까지 정확히 해석
다국어 및 다중 모달 지원: 다양한 언어, 글꼴, 스크립트 지원
업계 최고 수준의 성능: 다른 OCR 모델보다 높은 정확도를 기록
최고 속도: 단일 노드에서 분당 2000페이지 처리 가능
문서를 프롬프트로 활용 가능: JSON 등의 구조화된 출력 지원
온프레미스(Self-host) 옵션 제공: 기밀 문서 처리를 원하는 기업에 적합

복잡한 문서 이해

Mistral OCR은 과학 논문, 그래프, 수식, 표, 이미지를 포함한 문서를 심층적으로 분석할 수 있음
예제 노트북을 통해 OCR이 PDF에서 텍스트와 이미지를 어떻게 추출하는지 확인 가능 (예제)

성능 비교 (벤치마크)

Mistral OCR은 다른 주요 OCR 모델과 비교했을 때 전반적인 성능에서 가장 높은 점수를 기록함

전반적 성능(Overall): 94.89 (다른 모델보다 높은 수치)
수식(Math) 분석 성능: 94.29 (GPT-4o보다 7점 이상 높음)
다국어 인식 성능: 89.55
스캔 문서(Scanned) 처리 성능: 98.96
테이블(Table) 인식 성능: 96.12 (다른 모델 대비 가장 뛰어남)

다국어 지원

Mistral OCR은 전 세계 다양한 언어와 스크립트를 처리 가능. 주요 모델과 비교 시 모든 언어에서 최고의 OCR 성능을 기록

러시아어(ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
프랑스어(fr): 99.20 (Azure 97.50, Google 96.36)
중국어(zh): 97.11 (Azure 91.40, Google 90.89)
독일어(de): 99.51 (Azure 98.39, Google 97.09)

빠른 처리 속도

Mistral OCR은 기존 OCR 모델보다 가벼우며, 단일 노드에서 최대 2000페이지/분 처리 가능
대량 문서 처리가 필요한 환경에서 지속적인 학습과 개선을 지원

문서를 프롬프트로 활용 (Doc-as-prompt)

문서에서 특정 정보를 추출하고 JSON 등의 구조화된 출력 생성 가능
추출된 데이터를 후속 AI 프로세스와 연결하여 자동화 가능
예: 법률 문서에서 특정 조항 추출 후 AI 챗봇 응답 생성

온프레미스(Self-host) 옵션

기업 내 기밀 문서 처리가 필요한 경우 자체 호스팅 가능
데이터 프라이버시와 보안이 중요한 기관 및 기업에 적합

주요 활용 사례

과학 연구 디지털화: 논문과 저널을 AI가 처리할 수 있는 형식으로 변환하여 연구 협업 가속화
역사 및 문화유산 보존: 박물관 및 비영리 단체가 역사적 문서를 디지털화하여 보존 및 공유 가능
고객 서비스 개선: 매뉴얼과 문서를 인덱싱하여 고객 응대 속도 향상
디자인, 교육, 법률 문서 AI 활용: 엔지니어링 도면, 강의 자료, 규제 서류 등을 인덱싱하여 AI 기반 정보 검색 가능

Mistral OCR 체험하기

Mistral OCR은 Le Chat에서 무료 체험 가능 (Le Chat)
API는 la Plateforme에서 사용 가능 (API 사용)
온프레미스 배포 및 기업용 맞춤 솔루션도 제공됨 (문의)

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

taeha 2025-03-13 [-]

한국어 성능에 대한 내용은 없지만 뽑아보니 나쁘지 않아 보이네요

답변달기

GN⁺ 2025-03-07 [-]

Hacker News 의견

"나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함
- 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음
- 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음
- 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임
Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음
- 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음
- Marker는 H100에서 초당 20~120페이지를 추론할 수 있음
- 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함
- Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움
OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음
- 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음
- HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음
- Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음
OCR 기술이 거의 해결된 상태에 도달하고 있음
- 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음
- LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임
- 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함
의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음
- 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음
기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음
- 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음
매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음
- 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨
- PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음
특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음
- 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함
- Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함
VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함