3P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • OCR 성능을 분석하는 Omni OCR 벤치마크에서 최근 출시된 Qwen 2.5 VL(72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr 등의 모델을 포함하여 비교
  • Qwen 2.5 VL 72b/32b 모델이 가장 높은 정확도 기록
    • 둘 다 약 75% 정확도로 GPT-4o 수준의 성능을 보여줌
    • Qwen 72b는 32b보다 0.4% 높은 정확도 기록, 사실상 오차 범위 내 유사한 성능임
  • 두 Qwen 모델이 mistral-ocr(72.2%) 성능을 넘김
    • mistral-ocr은 OCR에 특화되어 훈련된 모델임에도 불구하고 Qwen에 밀림
  • Gemma-3 (27B) 모델은 **42.9%**의 낮은 정확도
    • Gemini 2.0 아키텍처 기반인데도 낮은 성능이어서 다소 의외의 결과

Omni OCR Benchmark

  • OCR 및 데이터 추출 기능을 비교하는 벤치마킹 도구로, GPT-4o와 같은 대규모 멀티모달 모델의 텍스트 및 JSON 추출 정확도를 평가
  • 이 벤치마크의 목표는 전통적인 OCR 제공자와 멀티모달 언어 모델 전반에 걸쳐 OCR 정확도의 포괄적인 벤치마크를 게시하는 것
  • 평가 데이터셋과 방법론은 모두 오픈 소스로 제공되며, 추가 제공자를 포함하도록 이 벤치마크를 확장하는 것을 권장
Hacker News 의견
  • 32b는 출력이 더 인간 친화적이고, 수학적 추론이 더 나으며, 세밀한 이해를 돕는 작은 조정 기능이 유용해 보임
  • Qwen2.5-VL-72b는 두 달 전에 출시되었으며, 손글씨 인식에 대한 열정적인 댓글이 있었음
    • 이 모델은 AI에 대한 회의감과 불만을 극복하게 해준 흥미로운 출시였음
    • 출시 노트가 잘 정리되어 있으며, 블로그 포스트도 훌륭함
  • Qwen HTML 출력이 흥미로웠음
    • HTML 형식으로 경계 상자를 제공하여 시각적 피드백을 빠르게 구축하거나 구조화된 데이터를 쉽게 사용할 수 있게 함
    • 전통적인 OCR이 LLM보다 경계 상자 좌표를 제공하는 데 있어 큰 장점이 있음
  • 95% 이상의 정확도에 도달하기 전까지는 인간의 이중 확인 및 수정이 필요하며, 경계 상자가 없으면 비현실적임
  • "Qwen2.5-VL-32b-Instruct -8bit"의 MLX 버전을 LM Studio를 통해 다운로드 중이며, OCR 사이드 프로젝트에 사용할 예정임
  • 비용과 지연 시간을 정확도 외에도 측정했다면 그 결과를 공유해 줄 수 있는지 궁금함
  • Gemini의 OCR 기능에 계속 놀라고 있으며, Qwen은 빠르게 발전하고 있음
  • 여러 모델을 비교하여 작업을 수행하며, Qwen의 최신 모델은 이전보다 훨씬 안정적이고 미세 조정이 쉬움
  • OpenAI의 OCR 성능은 오랫동안 개선되지 않았으며, 이는 이상하고 짜증스러움
  • Qwen 2.5 VL 72b는 일반적인 비전에서 Gemini를 능가하며, 로컬에서 실행 가능함
  • macOS에서 OCR API로 실험 중이며, 이 LLM들과 비교하고 싶음
  • Tesseract는 손글씨를 제외한 모든 것에서 99% 정확도를 달성할 수 있음
  • LLM을 사용하는 장점이 있는지 궁금함
  • Qwen의 테스트 결과에 매우 감명받았으며, 사람들이 이를 과소평가하고 있다고 생각함
  • 여러 파일을 단일 프롬프트로 처리하기 위해 LLM 인터페이스를 어떻게 구성하는지 궁금함
  • Tyler와 팀의 훌륭한 작업임