Hacker News 의견
  • "나쁘지 않음"이라는 의견이 있음. 그러나 여전히 환각 현상이 발생함

    • 예시로 제공된 이미지에서 중앙 블록의 텍스트는 정확하게 출력되었음
    • 그러나 다음 블록에서는 이전 블록의 텍스트 일부가 반복되고, 다음 블록의 일부가 잘못 포함되었으며, 존재하지 않는 단어가 생성되었음
    • 올바른 텍스트는 "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."임
  • Mistral과 Marker의 성능 비교를 위한 벤치마크를 부분적으로 실행했음

    • 375개의 샘플에서 LLM이 심사한 결과, Mistral은 4.32점, Marker는 4.41점을 기록했음
    • Marker는 H100에서 초당 20~120페이지를 추론할 수 있음
    • 샘플과 벤치마크 코드는 각각 Hugging Face와 GitHub에서 확인 가능함
    • Mistral OCR은 인상적인 모델이지만, OCR 문제는 여전히 어려움
  • OCR 기술이 발전하면서 논문과 교과서를 읽는 것이 더 쉬워질 것이라는 기대가 있음

    • 그림 참조와 실제 그림을 연결할 수 있어 읽기 흐름을 방해하지 않음
    • HTML로의 깔끔한 변환이 가능해져, 정의를 클릭하거나 이해를 확인하는 질문을 추가할 수 있음
    • Andy Matuschak의 Orbit SRS를 PDF에 자동으로 통합할 가능성도 있음
  • OCR 기술이 거의 해결된 상태에 도달하고 있음

    • 그러나 비즈니스에서 원시 OCR 출력에서 문서 처리로 전환하는 데는 여전히 큰 격차가 있음
    • LLM과 VLM은 마법이 아니며, 100% 자동화를 기대하는 것은 무리임
    • 데이터셋 구축, 파이프라인 조정, 불확실성 감지 및 인간의 개입을 통한 수정 등이 필요함
  • 의료 교과서를 PDF에서 MD로 변환하는 경우, MinerU/PDF-Extract-Kit의 결과가 더 좋다는 의견이 있음

    • 기사에 있는 콜랩 링크가 작동하지 않지만, 문서에서 작동하는 링크를 찾았음
  • 기술이 발전하여 PDF를 편집할 수 있게 된 날이 왔다는 의견이 있음

    • 그러나 여전히 개인 데이터가 포함된 PDF 아카이브의 OCR 문제는 해결되지 않음
  • 매우 빠르고 구글, Claude 등보다 정확하다는 의견이 있음

    • 가격은 1000페이지당 $1, 배치의 경우 2000페이지당 가격이 책정됨
    • PDF를 Markdown으로 변환하는 데 훌륭하다는 의견이 있음
  • 특정 모델 대신 일반 VLM을 사용하는 경우, 특정 사례에 맞게 조정하기 어렵다는 단점이 있음

    • 예를 들어, Gemini를 사용하여 추출된 Markdown에 매우 구체적인 대체 텍스트를 추가함
    • Gemini Flash보다 2~3배 비용이 들지만 성능 향상이 중요함
  • VLM OCR이 환각을 일으키는 이유에 대한 간단한 설명을 찾고자 함