2P by GN⁺ 1달전 | ★ favorite | 댓글 1개
  • 문서 처리 정확도와 효율성을 동시에 향상시킨 차세대 OCR 모델로, 다양한 문서 유형에서 높은 인식 성능을 제공
  • 이전 버전 대비 74%의 전반적 성능 향상을 기록하며, 필기체·양식·복잡한 표·스캔 문서 등에서 우수한 결과를 달성
  • HTML 기반 표 재구성과 마크다운 출력 지원으로 문서의 구조적 정보까지 보존 가능
  • 1,000페이지당 2달러, 대량 처리 시 50% 할인으로 비용 효율성을 확보
  • 기업용 대규모 파이프라인부터 인터랙티브 문서 워크플로우까지 폭넓게 활용 가능한 OCR 기술로, 생성형 AI 기반 데이터 활용의 핵심 인프라로 부상

주요 성능 및 특징

  • Mistral OCR 3는 다양한 문서에서 텍스트와 내장 이미지 추출을 고정밀도로 수행
    • 마크다운 형식 출력과 HTML 표 재구성 기능을 지원해 문서의 내용뿐 아니라 구조까지 인식 가능
    • 모델 크기가 작아 경쟁 솔루션 대비 낮은 비용으로 제공되며, 1,000페이지당 2달러, Batch API 사용 시 1달러로 이용 가능
  • mistral-ocr-2512 모델을 API로 통합하거나, Document AI Playground UI를 통해 PDF·이미지를 텍스트 또는 구조화된 JSON으로 변환 가능

성능 향상 및 벤치마크

  • 내부 벤치마크에서 Mistral OCR 2 대비 74%의 승률을 기록
    • 테스트는 실제 고객의 비즈니스 사례를 기반으로 수행되었으며, 정확도는 fuzzy-match metric으로 평가
  • 엔터프라이즈 문서 처리 솔루션 및 AI 기반 OCR을 모두 능가하는 정확도 달성

주요 업그레이드 영역

  • 필기 인식: 필기체, 혼합 주석, 인쇄된 양식 위의 손글씨를 정확히 해석
  • 양식 처리: 상자, 라벨, 필기 입력, 복잡한 레이아웃 인식 향상
  • 스캔 및 복잡 문서: 압축 손상, 왜곡, 저해상도, 배경 노이즈에 강한 내성 확보
  • 복잡한 표 구조: 머리글, 병합 셀, 다중 행·열 계층을 포함한 표를 HTML 태그(colspan/rowspan) 으로 완전 재현
  • 모든 언어와 문서 형태에서 Mistral OCR 2 대비 전반적 성능 향상

활용 사례 및 응용 분야

  • 대규모 기업 문서 파이프라인인터랙티브 문서 워크플로우 모두에 적합
    • 텍스트·이미지 추출 후 마크다운 변환, 양식·송장 자동 파싱, 문서 이해 파이프라인 구축, 필기·역사 문서 디지털화 등 지원
  • 초기 고객들은 송장을 구조화 필드로 변환하거나, 기업 아카이브 디지털화, 기술·과학 보고서 텍스트 추출, 엔터프라이즈 검색 개선에 활용 중
  • IDC의 Tim Law는 “OCR은 생성형 AI와 에이전트형 AI의 기반 기술이며, 고정밀·저비용 텍스트 추출 역량이 데이터 활용 경쟁력을 결정한다”고 언급

접근 방식 및 호환성

  • API 또는 Document AI Playground 인터페이스를 통해 즉시 사용 가능
  • Mistral OCR 2와 완전 호환, 기존 시스템에서 손쉽게 업그레이드 가능
  • 세부 문서는 mistral.ai/docs에서 확인 가능
Hacker News 의견들
  • 트위터에서 본 이 영상을 보고 Mistral이 왜 최신 SoTA 모델과 비교하지 않는지 의문이 생김
    Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR 같은 모델들과 비교하면 좋을 것 같음

    • 문서 추출 작업을 많이 해본 입장에서 트윗의 어조는 좀 거슬리지만, 내용 자체는 맞는 말임
      Mistral은 VLM 기반 모델이 아닌 일반 컴퓨터 비전 서비스와 비교하고 있음
      전자는 문서 이해력이 높지만, 후자는 정확한 bounding box를 제공함
      실패 양상도 다름 — VLM은 문장 전체를 잘못 읽을 수 있고, 비전 모델은 단어 내 오타 수준임
    • 링크를 눌러봤는데, 트위터 분위기가 예전보다 훨씬 이상하게 변한 느낌이었음
    • Qwen 3 VL 235B-A22B와의 비교도 보고 싶음. 내 경험상 MinerU보다 훨씬 나았음
  • 최근 3개월 사이에 오픈소스 OCR 모델이 엄청 많이 나왔음
    특히 1B 파라미터도 안 되는 모델들이 엣지 디바이스에서도 잘 돌아감
    paddleOCR-VL, olmOCR-2, chandra, dots.ocr 같은 모델들과 비교했으면 좋겠음
    OCR이나 CV 관련 리더보드나 아레나가 거의 없는 게 아쉬움

    • 한 달쯤 전에 ocrarena.ai라는 프로젝트가 올라왔었음
      llmarena처럼 모델 간 대결을 하는 방식인데, 아직 Mistral은 업데이트 안 됨
      현재는 Gemini가 상위권임
    • MistralOCR의 장점은 단순한 가격 정책임 — 1,000페이지당 $1, 서버 호스팅 API 제공
      다른 OCR은 토큰 기반이라 실제 비용 계산이 어려움
      예를 들어 Gemini 3.0 flash는 겉보기엔 가격이 비슷하지만, 실제 토큰 단위로 보면 3배쯤 비쌈
    • paddleOCR 설치를 시도했는데, 12GB의 PyTorch 의존성을 설치하다가 버전 충돌로 포기함
      Claude에게 루트 권한을 줘서 대신 설치하게 했는데, 나보다 훨씬 즐겁게 하는 듯함
      open web UI 설치 때도 비슷한 경험을 했고, 결국 필요한 기능만 HTML 100줄로 직접 구현했음
      OCR도 그렇게 간단히 만들 수 있으면 좋겠음
    • codesota.com/ocr도 참고할 만함
  • Mistral OCR 3이 대규모 기업용 파이프라인에 적합하다고 하지만, 정확도 79% 로는 신뢰하기 어려움
    과학 저널 작업을 하는 입장에서 2.9+0.5와 29+0.5 같은 인식 오류가 치명적임
    결국 모든 단계에서 인간 검증이 필요함

    • 이런 경우엔 datalab.to가 꽤 괜찮았음
    • 79%는 정확도가 아니라 승률 수치로 보임
  • 나는 Shipibo(페루 원주민 언어)-스페인어 사전을 Shipibo-영어 사전으로 바꾸는 프로젝트를 하고 있음
    PDF 스캔 품질이 좋지 않고, 2단 레이아웃과 헤더/푸터 때문에 OCR이 자주 실패함
    Shipibo 예문과 스페인어 정의를 분리해 영어로만 번역해야 해서 복잡함
    새로운 OCR/LLM 소식이 나올 때마다 시도하지만 매번 실망 중임

    • 혹시 Ayahuasca 전통 연구에 관심 있는지 궁금함
      Shipibo 문화에서는 일반인이 아니라 maestra들이 Ayahuasca를 복용해 병을 진단했다고 함
      식물별로 dieta(금욕식) 를 하며, 비누 사용, 성관계, 소금 섭취 등을 제한함
      전통적으로 1년 이상 지속되기도 했고, 현대에는 몇 주 정도로 단축됨
      식물 의학을 이렇게 깊이 연구하는 점이 인상적이었음
  • 수학 교재를 LaTeX 수식 포함 markdown으로 변환하려고 하는데, 아직 만족스러운 OCR 모델이 없음
    Mistral의 OCR playground에서 직접 테스트해볼 예정임

    • 나는 수천 개의 문서를 Gemini Pro 3 vision 모델로 처리했는데, 지금까지 써본 어떤 OCR보다 압도적으로 정확했음
      수식도 완벽하게 LaTeX으로 변환됨
    • 결과가 어땠는지 꼭 공유해줬으면 함
  • 나는 이미지 내 번역(in-place translation) 을 찾고 있음
    Mistral OCR3은 데이터 추출 중심이라 내 용도엔 맞지 않음
    외국 아트북의 텍스트를 그림 위에 그대로 번역해 표시하고 싶은데, 기존 유료 서비스들은 비표준 텍스트 배치 때문에 실패함
    현재는 Google Lens로 화면을 비추며 번역 중인데, 불편함
    Chrome 내장 Lens도 수동 선택이 필요해서 완전 자동은 아님
    혹시 이런 기능 발전 소식 아는 사람 있음?

    • 유료라도 괜찮다면 DEEPL이나 Word의 문서 번역 기능이 꽤 쓸 만함
  • Mistral이 요즘 AI 기능의 주변부만 쫓는 느낌임
    OAI, Google, Anthropic에 비해 밀리는 듯하고, EU 차원의 투자가 부족해 보임

    • 폼 처리 같은 실용적 기능이야말로 사람들이 실제로 필요로 하는 부분임
      밈 생성보다 훨씬 가치 있음
    • 선두 기업을 그대로 따라가는 건 위험함
      아직 수익 모델이 확립되지 않았기 때문에, Mistral은 핵심 모델 퀄리티에 집중하는 게 맞음
      EU 내 인재를 유지하며 괜찮은 모델을 만드는 게 현실적인 목표임
    • EU는 Mistral에 매우 ‘투자’ 중임 — 절반은 세금 부과, 나머지는 규제 논의에 쓰이고 있음
    • EU 규제가 발목을 잡고 있어서 결국 미국 기업에 인수될 가능성이 큼
    • 그래도 남들 하는 걸 그대로 따라가는 것보단 낫다고 생각함
  • 여러 오픈소스 OCR(Paddle, MinerU, MonkeyOCR 등)보다 Mistral 성능이 떨어진다는 평가를 봤음
    codesota.com/ocr 참고

  • MathPix 대체로 Mistral을 테스트 중임
    이 파이썬 스크립트는 Windows에서 스니핑 후 클립보드 이미지를 Mistral로 보내고, Markdown 결과를 자동으로 붙여넣는 프로토타입임

  • Mistral의 가장 큰 문제는 고객 문의 무응답
    “가격 문의” 뒤에 숨는 방식이라 SoTA보다 좋아도 의미가 없음

    • 나도 세일즈 담당자와의 대면을 극도로 싫어함
      차라리 비싸고 성능이 떨어져도 그런 과정이 없는 서비스를 선택함