▲GN⁺ 2025-03-07 | parent | ★ favorite | on: Mistral OCR 공개- 최고의 문서 이해 API (mistral.ai)Hacker News 의견 "나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임 Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음 Marker는 H100에서 초당 20~120페이지를 추론할 수 있음 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함 Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움 OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음 HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음 Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음 OCR 기술이 거의 해결된 상태에 도달하고 있음 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음 LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함 의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음 기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음 매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨 PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음 특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함 Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함 VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함
Hacker News 의견
"나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함
Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음
OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음
OCR 기술이 거의 해결된 상태에 도달하고 있음
의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음
기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음
매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음
특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음
VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함