14P by neo 8일전 | ★ favorite | 댓글 2개
  • Mistral OCR은 세계 최고의 문서 이해 API로, 기존 모델보다 문서를 더 정확하게 이해하고 분석하는 능력을 제공
  • PDF 및 이미지에서 텍스트, 미디어, 수식, 테이블을 추출하여 구조화된 출력으로 변환
  • API는 현재 1000페이지/1$ (배치 처리 시 페이지당 비용 절반)로 제공

Mistral OCR의 주요 특징

  • 복잡한 문서 이해 능력: 표, 이미지, 수식, LaTeX 서식까지 정확히 해석
  • 다국어 및 다중 모달 지원: 다양한 언어, 글꼴, 스크립트 지원
  • 업계 최고 수준의 성능: 다른 OCR 모델보다 높은 정확도를 기록
  • 최고 속도: 단일 노드에서 분당 2000페이지 처리 가능
  • 문서를 프롬프트로 활용 가능: JSON 등의 구조화된 출력 지원
  • 온프레미스(Self-host) 옵션 제공: 기밀 문서 처리를 원하는 기업에 적합

복잡한 문서 이해

  • Mistral OCR은 과학 논문, 그래프, 수식, 표, 이미지를 포함한 문서를 심층적으로 분석할 수 있음
  • 예제 노트북을 통해 OCR이 PDF에서 텍스트와 이미지를 어떻게 추출하는지 확인 가능 (예제)

성능 비교 (벤치마크)

Mistral OCR은 다른 주요 OCR 모델과 비교했을 때 전반적인 성능에서 가장 높은 점수를 기록함

  • 전반적 성능(Overall): 94.89 (다른 모델보다 높은 수치)
  • 수식(Math) 분석 성능: 94.29 (GPT-4o보다 7점 이상 높음)
  • 다국어 인식 성능: 89.55
  • 스캔 문서(Scanned) 처리 성능: 98.96
  • 테이블(Table) 인식 성능: 96.12 (다른 모델 대비 가장 뛰어남)

다국어 지원

Mistral OCR은 전 세계 다양한 언어와 스크립트를 처리 가능. 주요 모델과 비교 시 모든 언어에서 최고의 OCR 성능을 기록

  • 러시아어(ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • 프랑스어(fr): 99.20 (Azure 97.50, Google 96.36)
  • 중국어(zh): 97.11 (Azure 91.40, Google 90.89)
  • 독일어(de): 99.51 (Azure 98.39, Google 97.09)

빠른 처리 속도

  • Mistral OCR은 기존 OCR 모델보다 가벼우며, 단일 노드에서 최대 2000페이지/분 처리 가능
  • 대량 문서 처리가 필요한 환경에서 지속적인 학습과 개선을 지원

문서를 프롬프트로 활용 (Doc-as-prompt)

  • 문서에서 특정 정보를 추출하고 JSON 등의 구조화된 출력 생성 가능
  • 추출된 데이터를 후속 AI 프로세스와 연결하여 자동화 가능
  • 예: 법률 문서에서 특정 조항 추출 후 AI 챗봇 응답 생성

온프레미스(Self-host) 옵션

  • 기업 내 기밀 문서 처리가 필요한 경우 자체 호스팅 가능
  • 데이터 프라이버시와 보안이 중요한 기관 및 기업에 적합

주요 활용 사례

  1. 과학 연구 디지털화: 논문과 저널을 AI가 처리할 수 있는 형식으로 변환하여 연구 협업 가속화
  2. 역사 및 문화유산 보존: 박물관 및 비영리 단체가 역사적 문서를 디지털화하여 보존 및 공유 가능
  3. 고객 서비스 개선: 매뉴얼과 문서를 인덱싱하여 고객 응대 속도 향상
  4. 디자인, 교육, 법률 문서 AI 활용: 엔지니어링 도면, 강의 자료, 규제 서류 등을 인덱싱하여 AI 기반 정보 검색 가능

Mistral OCR 체험하기

  • Mistral OCR은 Le Chat에서 무료 체험 가능 (Le Chat)
  • API는 la Plateforme에서 사용 가능 (API 사용)
  • 온프레미스 배포 및 기업용 맞춤 솔루션도 제공됨 (문의)

한국어 성능에 대한 내용은 없지만 뽑아보니 나쁘지 않아 보이네요

Hacker News 의견
  • "나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함

    • 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음
    • 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음
    • 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임
  • Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음

    • 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음
    • Marker는 H100에서 초당 20~120페이지를 추론할 수 있음
    • 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함
    • Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움
  • OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음

    • 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음
    • HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음
    • Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음
  • OCR 기술이 거의 해결된 상태에 도달하고 있음

    • 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음
    • LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임
    • 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함
  • 의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음

    • 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음
  • 기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음

    • 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음
  • 매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음

    • 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨
    • PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음
  • 특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음

    • 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함
    • Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함
  • VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함