Hacker News 의견
  • 32b는 출력이 더 인간 친화적이고, 수학적 추론이 더 나으며, 세밀한 이해를 돕는 작은 조정 기능이 유용해 보임
  • Qwen2.5-VL-72b는 두 달 전에 출시되었으며, 손글씨 인식에 대한 열정적인 댓글이 있었음
    • 이 모델은 AI에 대한 회의감과 불만을 극복하게 해준 흥미로운 출시였음
    • 출시 노트가 잘 정리되어 있으며, 블로그 포스트도 훌륭함
  • Qwen HTML 출력이 흥미로웠음
    • HTML 형식으로 경계 상자를 제공하여 시각적 피드백을 빠르게 구축하거나 구조화된 데이터를 쉽게 사용할 수 있게 함
    • 전통적인 OCR이 LLM보다 경계 상자 좌표를 제공하는 데 있어 큰 장점이 있음
  • 95% 이상의 정확도에 도달하기 전까지는 인간의 이중 확인 및 수정이 필요하며, 경계 상자가 없으면 비현실적임
  • "Qwen2.5-VL-32b-Instruct -8bit"의 MLX 버전을 LM Studio를 통해 다운로드 중이며, OCR 사이드 프로젝트에 사용할 예정임
  • 비용과 지연 시간을 정확도 외에도 측정했다면 그 결과를 공유해 줄 수 있는지 궁금함
  • Gemini의 OCR 기능에 계속 놀라고 있으며, Qwen은 빠르게 발전하고 있음
  • 여러 모델을 비교하여 작업을 수행하며, Qwen의 최신 모델은 이전보다 훨씬 안정적이고 미세 조정이 쉬움
  • OpenAI의 OCR 성능은 오랫동안 개선되지 않았으며, 이는 이상하고 짜증스러움
  • Qwen 2.5 VL 72b는 일반적인 비전에서 Gemini를 능가하며, 로컬에서 실행 가능함
  • macOS에서 OCR API로 실험 중이며, 이 LLM들과 비교하고 싶음
  • Tesseract는 손글씨를 제외한 모든 것에서 99% 정확도를 달성할 수 있음
  • LLM을 사용하는 장점이 있는지 궁금함
  • Qwen의 테스트 결과에 매우 감명받았으며, 사람들이 이를 과소평가하고 있다고 생각함
  • 여러 파일을 단일 프롬프트로 처리하기 위해 LLM 인터페이스를 어떻게 구성하는지 궁금함
  • Tyler와 팀의 훌륭한 작업임