Qwen2.5-VL-32B - 더 똑똑하고 가벼운 모델
(qwenlm.github.io)- 1월에 출시한 Qwen2.5-VL 시리즈를 기반으로 강화 학습을 통해 모델을 최적화하고, 32B 파라미터 규모의 새로운 VL 모델 Qwen2.5-VL-32B-Instruct를 Apache 2.0 라이선스 하에 오픈 소스화
- 이전 모델과 비교하여, 이 32B VL 모델의 특징:
- 인간 선호도에 더 잘 맞춘 응답: 출력 스타일을 조정하여 더 상세하고 잘 정리된 답변을 제공함.
- 수학적 추론: 복잡한 수학 문제 해결의 정확성이 크게 향상됨.
- 세밀한 이미지 이해 및 추론: 이미지 파싱, 콘텐츠 인식, 시각적 논리 추론 등의 작업에서 정확성과 세부 분석이 강화됨.
성능
- 동급의 최신 모델들과 광범위한 벤치마킹을 통해, Qwen2.5-VL-32B-Instruct는 Mistral-Small-3.1-24B 및 Gemma-3-27B-IT와 같은 기준 모델을 능가하며, 더 큰 Qwen2-VL-72B-Instruct도 뛰어넘는 성과를 보임.
- 특히 MMMU, MMMU-Pro, MathVista와 같은 복잡하고 다단계의 추론을 요구하는 멀티모달 작업에서 상당한 이점을 가짐.
- MM-MT-Bench에서는 주관적인 사용자 경험 평가를 강조하며, Qwen2-VL-72B-Instruct보다 상당한 차이로 우수한 성과를 보임.
- 시각적 능력뿐만 아니라, 동일한 규모에서 순수 텍스트 능력에서도 최고 수준의 성과를 달성함.
Hacker News 의견
- 오픈 소스 중국 모델 출시의 큰 날임. DeepSeek-v3-0324가 오늘 MIT 라이선스로 업데이트되어 출시됨 (이전에는 커스텀 DeepSeek 라이선스였음)
- 몇 달 전 Llama vision 3.2를 사용했었는데, 속도와 결과 품질 면에서 매우 실망스러웠음. Hugging Face에서 대안을 찾다가 Qwen을 발견했음. 정확도와 속도의 차이가 엄청났음. 이미지를 분석해 반응을 요청하면 4090으로 반초 만에 대부분 정확한 응답을 받음. 더 놀라운 것은 이미지에서 엔티티 이름을 추출할 때, 이름이 잘려 있어도 완전한 이름을 제공함 (예: "Coca-C"가 배경에 희미하게 보이면 "Coca-Cola"로 반환함). 잘 알려지지 않은 엔티티나 특정 지역에서만 알려진 엔티티도 잘 처리함. Qwen을 사용한 이후로 Llama나 다른 비전 모델로 돌아가지 않았음
- 32B 모델은 현재 내가 가장 좋아하는 모델 크기 중 하나임. 매우 강력하면서도 단일 GPU나 적당한 사양의 Mac 노트북(32GB 이상)에서 실행할 수 있을 만큼 작음
- 이 모델은 이제 MLX에서 다양한 크기로 사용 가능함
- uv를 사용하여 라이브러리를 설치할 필요 없이 실행함
- 약 18GB의 모델을 다운로드하여 매우 인상적인 결과를 얻었음
- 어리석은 질문일 수 있지만, OpenAI, Claude 등은 모든 오픈 소스 모델을 고려할 때 어떻게 그렇게 큰 평가를 받을 수 있는지 궁금함. 그들이 사라지거나 작아질 것이라고 말하는 것은 아니지만, 왜 그렇게 가치가 큰지 궁금함
- 오픈 웨이트 모델들이 너무 빨리 나오고 있어 추적하기 어려움. 각 모델에서 "현재"인 것을 유지하는 목록을 관리하는 사람이 있는지 궁금함
- 모델을 멀티모달로 만드는 것이 텍스트 기능에 어떤 영향을 미치는지 아는 사람이 있는지 궁금함. 기사는 순수 텍스트에서도 좋은 성능을 발휘한다고 주장하지만, 실제로 얼마나 영향을 미치는지 분석이 있는지 궁금함. 몇몇 사람들은 모델이 텍스트에서 더 나아질 것이라고 주장하지만, 데이터 없이 믿기 어렵다고 생각함
- 어떤 크기의 비디오 카드를 필요로 하는지 더 잘 알고 싶음. HuggingFace 링크에 따르면 bfloat16이므로 최소 64GB가 필요할 것 같음. -7B는 내 16GB AMD 카드에서 실행될 수 있을까?
- Qwen은 Alibaba Cloud에서 제작한 것임 (블로그 포스트 어디에도 언급되지 않음)
- 오늘은 Qwen, 내일은 Google의 새로운 SOTA 모델, 다음 주에는 R2가 나올 예정임. 아직 한계에 도달하지 않았음