Qwen-2.5-32B가 이제 최고의 오픈소스 OCR

▲

GN⁺ 2025-04-04 | parent | ★ favorite | on: Qwen-2.5-32B가 이제 최고의 오픈소스 OCR 모델입니다(github.com/getomni-ai)

Hacker News 의견

32b는 출력이 더 인간 친화적이고, 수학적 추론이 더 나으며, 세밀한 이해를 돕는 작은 조정 기능이 유용해 보임
Qwen2.5-VL-72b는 두 달 전에 출시되었으며, 손글씨 인식에 대한 열정적인 댓글이 있었음
- 이 모델은 AI에 대한 회의감과 불만을 극복하게 해준 흥미로운 출시였음
- 출시 노트가 잘 정리되어 있으며, 블로그 포스트도 훌륭함
Qwen HTML 출력이 흥미로웠음
- HTML 형식으로 경계 상자를 제공하여 시각적 피드백을 빠르게 구축하거나 구조화된 데이터를 쉽게 사용할 수 있게 함
- 전통적인 OCR이 LLM보다 경계 상자 좌표를 제공하는 데 있어 큰 장점이 있음
95% 이상의 정확도에 도달하기 전까지는 인간의 이중 확인 및 수정이 필요하며, 경계 상자가 없으면 비현실적임
"Qwen2.5-VL-32b-Instruct -8bit"의 MLX 버전을 LM Studio를 통해 다운로드 중이며, OCR 사이드 프로젝트에 사용할 예정임
비용과 지연 시간을 정확도 외에도 측정했다면 그 결과를 공유해 줄 수 있는지 궁금함
Gemini의 OCR 기능에 계속 놀라고 있으며, Qwen은 빠르게 발전하고 있음
여러 모델을 비교하여 작업을 수행하며, Qwen의 최신 모델은 이전보다 훨씬 안정적이고 미세 조정이 쉬움
OpenAI의 OCR 성능은 오랫동안 개선되지 않았으며, 이는 이상하고 짜증스러움
Qwen 2.5 VL 72b는 일반적인 비전에서 Gemini를 능가하며, 로컬에서 실행 가능함
macOS에서 OCR API로 실험 중이며, 이 LLM들과 비교하고 싶음
Tesseract는 손글씨를 제외한 모든 것에서 99% 정확도를 달성할 수 있음
LLM을 사용하는 장점이 있는지 궁금함
Qwen의 테스트 결과에 매우 감명받았으며, 사람들이 이를 과소평가하고 있다고 생각함
여러 파일을 단일 프롬프트로 처리하기 위해 LLM 인터페이스를 어떻게 구성하는지 궁금함
Tyler와 팀의 훌륭한 작업임