Qwen2.5-VL-32B - 더 똑똑하고 가벼운 모델

▲

GN⁺ 2025-03-25 | parent | ★ favorite | on: Qwen2.5-VL-32B - 더 똑똑하고 가벼운 모델(qwenlm.github.io)

Hacker News 의견

오픈 소스 중국 모델 출시의 큰 날임. DeepSeek-v3-0324가 오늘 MIT 라이선스로 업데이트되어 출시됨 (이전에는 커스텀 DeepSeek 라이선스였음)
몇 달 전 Llama vision 3.2를 사용했었는데, 속도와 결과 품질 면에서 매우 실망스러웠음. Hugging Face에서 대안을 찾다가 Qwen을 발견했음. 정확도와 속도의 차이가 엄청났음. 이미지를 분석해 반응을 요청하면 4090으로 반초 만에 대부분 정확한 응답을 받음. 더 놀라운 것은 이미지에서 엔티티 이름을 추출할 때, 이름이 잘려 있어도 완전한 이름을 제공함 (예: "Coca-C"가 배경에 희미하게 보이면 "Coca-Cola"로 반환함). 잘 알려지지 않은 엔티티나 특정 지역에서만 알려진 엔티티도 잘 처리함. Qwen을 사용한 이후로 Llama나 다른 비전 모델로 돌아가지 않았음
32B 모델은 현재 내가 가장 좋아하는 모델 크기 중 하나임. 매우 강력하면서도 단일 GPU나 적당한 사양의 Mac 노트북(32GB 이상)에서 실행할 수 있을 만큼 작음
이 모델은 이제 MLX에서 다양한 크기로 사용 가능함
- uv를 사용하여 라이브러리를 설치할 필요 없이 실행함
- 약 18GB의 모델을 다운로드하여 매우 인상적인 결과를 얻었음
어리석은 질문일 수 있지만, OpenAI, Claude 등은 모든 오픈 소스 모델을 고려할 때 어떻게 그렇게 큰 평가를 받을 수 있는지 궁금함. 그들이 사라지거나 작아질 것이라고 말하는 것은 아니지만, 왜 그렇게 가치가 큰지 궁금함
오픈 웨이트 모델들이 너무 빨리 나오고 있어 추적하기 어려움. 각 모델에서 "현재"인 것을 유지하는 목록을 관리하는 사람이 있는지 궁금함
모델을 멀티모달로 만드는 것이 텍스트 기능에 어떤 영향을 미치는지 아는 사람이 있는지 궁금함. 기사는 순수 텍스트에서도 좋은 성능을 발휘한다고 주장하지만, 실제로 얼마나 영향을 미치는지 분석이 있는지 궁금함. 몇몇 사람들은 모델이 텍스트에서 더 나아질 것이라고 주장하지만, 데이터 없이 믿기 어렵다고 생각함
어떤 크기의 비디오 카드를 필요로 하는지 더 잘 알고 싶음. HuggingFace 링크에 따르면 bfloat16이므로 최소 64GB가 필요할 것 같음. -7B는 내 16GB AMD 카드에서 실행될 수 있을까?
Qwen은 Alibaba Cloud에서 제작한 것임 (블로그 포스트 어디에도 언급되지 않음)
오늘은 Qwen, 내일은 Google의 새로운 SOTA 모델, 다음 주에는 R2가 나올 예정임. 아직 한계에 도달하지 않았음