GN⁺: Mistral OCR 공개- 최고의 문서 이해 API
(mistral.ai)- Mistral OCR은 세계 최고의 문서 이해 API로, 기존 모델보다 문서를 더 정확하게 이해하고 분석하는 능력을 제공
- PDF 및 이미지에서 텍스트, 미디어, 수식, 테이블을 추출하여 구조화된 출력으로 변환
- API는 현재 1000페이지/1$ (배치 처리 시 페이지당 비용 절반)로 제공
Mistral OCR의 주요 특징
- 복잡한 문서 이해 능력: 표, 이미지, 수식, LaTeX 서식까지 정확히 해석
- 다국어 및 다중 모달 지원: 다양한 언어, 글꼴, 스크립트 지원
- 업계 최고 수준의 성능: 다른 OCR 모델보다 높은 정확도를 기록
- 최고 속도: 단일 노드에서 분당 2000페이지 처리 가능
- 문서를 프롬프트로 활용 가능: JSON 등의 구조화된 출력 지원
- 온프레미스(Self-host) 옵션 제공: 기밀 문서 처리를 원하는 기업에 적합
복잡한 문서 이해
- Mistral OCR은 과학 논문, 그래프, 수식, 표, 이미지를 포함한 문서를 심층적으로 분석할 수 있음
- 예제 노트북을 통해 OCR이 PDF에서 텍스트와 이미지를 어떻게 추출하는지 확인 가능 (예제)
성능 비교 (벤치마크)
Mistral OCR은 다른 주요 OCR 모델과 비교했을 때 전반적인 성능에서 가장 높은 점수를 기록함
- 전반적 성능(Overall): 94.89 (다른 모델보다 높은 수치)
- 수식(Math) 분석 성능: 94.29 (GPT-4o보다 7점 이상 높음)
- 다국어 인식 성능: 89.55
- 스캔 문서(Scanned) 처리 성능: 98.96
- 테이블(Table) 인식 성능: 96.12 (다른 모델 대비 가장 뛰어남)
다국어 지원
Mistral OCR은 전 세계 다양한 언어와 스크립트를 처리 가능. 주요 모델과 비교 시 모든 언어에서 최고의 OCR 성능을 기록
- 러시아어(ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- 프랑스어(fr): 99.20 (Azure 97.50, Google 96.36)
- 중국어(zh): 97.11 (Azure 91.40, Google 90.89)
- 독일어(de): 99.51 (Azure 98.39, Google 97.09)
빠른 처리 속도
- Mistral OCR은 기존 OCR 모델보다 가벼우며, 단일 노드에서 최대 2000페이지/분 처리 가능
- 대량 문서 처리가 필요한 환경에서 지속적인 학습과 개선을 지원
문서를 프롬프트로 활용 (Doc-as-prompt)
- 문서에서 특정 정보를 추출하고 JSON 등의 구조화된 출력 생성 가능
- 추출된 데이터를 후속 AI 프로세스와 연결하여 자동화 가능
- 예: 법률 문서에서 특정 조항 추출 후 AI 챗봇 응답 생성
온프레미스(Self-host) 옵션
- 기업 내 기밀 문서 처리가 필요한 경우 자체 호스팅 가능
- 데이터 프라이버시와 보안이 중요한 기관 및 기업에 적합
주요 활용 사례
- 과학 연구 디지털화: 논문과 저널을 AI가 처리할 수 있는 형식으로 변환하여 연구 협업 가속화
- 역사 및 문화유산 보존: 박물관 및 비영리 단체가 역사적 문서를 디지털화하여 보존 및 공유 가능
- 고객 서비스 개선: 매뉴얼과 문서를 인덱싱하여 고객 응대 속도 향상
- 디자인, 교육, 법률 문서 AI 활용: 엔지니어링 도면, 강의 자료, 규제 서류 등을 인덱싱하여 AI 기반 정보 검색 가능
Mistral OCR 체험하기
Hacker News 의견
-
"나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함
- 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음
- 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음
- 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임
-
Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음
- 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음
- Marker는 H100에서 초당 20~120페이지를 추론할 수 있음
- 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함
- Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움
-
OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음
- 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음
- HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음
- Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음
-
OCR 기술이 거의 해결된 상태에 도달하고 있음
- 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음
- LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임
- 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함
-
의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음
- 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음
-
기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음
- 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음
-
매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음
- 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨
- PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음
-
특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음
- 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함
- Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함
-
VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함