# Qwen-2.5-32B가 이제 최고의 오픈소스 OCR 모델입니다

> Clean Markdown view of GeekNews topic #20127. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20127](https://news.hada.io/topic?id=20127)
- GeekNews Markdown: [https://news.hada.io/topic/20127.md](https://news.hada.io/topic/20127.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-04-04T07:22:28+09:00
- Updated: 2025-04-04T07:22:28+09:00
- Original source: [github.com/getomni-ai](https://github.com/getomni-ai/benchmark/blob/main/README.md)
- Points: 8
- Comments: 1

## Summary

Qwen 2.5 VL 모델(72B, 32B)은 Omni OCR 벤치마크에서 가장 높은 정확도를 기록하며 GPT-4o 수준의 성능을 보여주었습니다. 두 모델 모두 mistral-ocr의 성능을 넘어섰으며, 특히 Qwen 72B는 32B보다 약간 더 높은 정확도를 기록했습니다. 반면, Gemma-3 (27B) 모델은 기대에 못 미치는 낮은 정확도를 보였습니다.

## Topic Body

- OCR 성능을 분석하는 Omni OCR 벤치마크에서 최근 출시된 Qwen 2.5 VL(72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr 등의 모델을 포함하여 비교   
- **Qwen 2.5 VL 72b/32b** 모델이 가장 높은 정확도 기록  
  - 둘 다 약 **75% 정확도**로 GPT-4o 수준의 성능을 보여줌  
  - Qwen 72b는 32b보다 **0.4% 높은 정확도** 기록, 사실상 오차 범위 내 유사한 성능임  
- 두 Qwen 모델이 mistral-ocr(72.2%) 성능을 넘김  
  - mistral-ocr은 OCR에 특화되어 훈련된 모델임에도 불구하고 Qwen에 밀림  
- Gemma-3 (27B) 모델은 **42.9%**의 낮은 정확도  
  - Gemini 2.0 아키텍처 기반인데도 낮은 성능이어서 다소 의외의 결과  
  
### Omni OCR Benchmark   
- OCR 및 데이터 추출 기능을 비교하는 벤치마킹 도구로, GPT-4o와 같은 대규모 멀티모달 모델의 **텍스트 및 JSON 추출 정확도**를 평가  
- 이 벤치마크의 목표는 전통적인 OCR 제공자와 멀티모달 언어 모델 전반에 걸쳐 OCR 정확도의 포괄적인 벤치마크를 게시하는 것  
- 평가 데이터셋과 방법론은 모두 오픈 소스로 제공되며, 추가 제공자를 포함하도록 이 벤치마크를 확장하는 것을 권장

## Comments



### Comment 36706

- Author: neo
- Created: 2025-04-04T07:22:29+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43549072) 
* 32b는 출력이 더 인간 친화적이고, 수학적 추론이 더 나으며, 세밀한 이해를 돕는 작은 조정 기능이 유용해 보임
* Qwen2.5-VL-72b는 두 달 전에 출시되었으며, 손글씨 인식에 대한 열정적인 댓글이 있었음
  - 이 모델은 AI에 대한 회의감과 불만을 극복하게 해준 흥미로운 출시였음
  - 출시 노트가 잘 정리되어 있으며, 블로그 포스트도 훌륭함
* Qwen HTML 출력이 흥미로웠음
  - HTML 형식으로 경계 상자를 제공하여 시각적 피드백을 빠르게 구축하거나 구조화된 데이터를 쉽게 사용할 수 있게 함
  - 전통적인 OCR이 LLM보다 경계 상자 좌표를 제공하는 데 있어 큰 장점이 있음
* 95% 이상의 정확도에 도달하기 전까지는 인간의 이중 확인 및 수정이 필요하며, 경계 상자가 없으면 비현실적임
* "Qwen2.5-VL-32b-Instruct -8bit"의 MLX 버전을 LM Studio를 통해 다운로드 중이며, OCR 사이드 프로젝트에 사용할 예정임
* 비용과 지연 시간을 정확도 외에도 측정했다면 그 결과를 공유해 줄 수 있는지 궁금함
* Gemini의 OCR 기능에 계속 놀라고 있으며, Qwen은 빠르게 발전하고 있음
* 여러 모델을 비교하여 작업을 수행하며, Qwen의 최신 모델은 이전보다 훨씬 안정적이고 미세 조정이 쉬움
* OpenAI의 OCR 성능은 오랫동안 개선되지 않았으며, 이는 이상하고 짜증스러움
* Qwen 2.5 VL 72b는 일반적인 비전에서 Gemini를 능가하며, 로컬에서 실행 가능함
* macOS에서 OCR API로 실험 중이며, 이 LLM들과 비교하고 싶음
* Tesseract는 손글씨를 제외한 모든 것에서 99% 정확도를 달성할 수 있음
* LLM을 사용하는 장점이 있는지 궁금함
* Qwen의 테스트 결과에 매우 감명받았으며, 사람들이 이를 과소평가하고 있다고 생각함
* 여러 파일을 단일 프롬프트로 처리하기 위해 LLM 인터페이스를 어떻게 구성하는지 궁금함
* Tyler와 팀의 훌륭한 작업임
