GN⁺: Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기
(simonwillison.net)- Alibaba Qwen 팀이 새로운 시각적 추론 모델 QvQ-72B-Preview를 발표
- 이미지와 프롬프트를 입력받아 상세한 추론을 수행
- 원래 Apache 2.0으로 표시되었으나 현재는 Qwen 라이선스로 변경됨
- 이전 모델 QwQ와의 차이점
- QwQ는 텍스트 기반 추론에 집중했으며, "생각의 경계를 반영하는" 메커니즘으로 설계됨
- QvQ는 이에 시각적 입력을 추가하여 이미지를 기반으로 깊이 있는 분석을 수행함
QvQ 사용 사례 및 테스트
- Hugging Face Spaces에서 QvQ 모델 사용 가능
- 이미지와 단일 프롬프트를 입력하면 매우 긴 응답을 생성하며, 추가 프롬프트 입력은 불가능함
- 입력 이미지를 분석하며 순차적으로 추론 과정을 설명함
- 테스트 결과
-
펠리컨 세기: "Count the pelicans" 프롬프트를 사용하여 사진 속 펠리컨 수를 계산
- 총 4마리의 펠리컨을 정확히 계산했으며, 부분적으로 보이는 새는 배제함
- 친근하고 대화적인 문체로 추론을 설명함
-
ARC-AGI 퍼즐: 복잡한 문제를 푸는 데 도전했으나 정확한 결과를 도출하지는 못함
- 셀룰러 오토마타와 같은 독창적인 접근 방식을 제안
-
공룡(용) 높이 추정: 비교 가능한 물체 없이 용의 높이를 추정하는 작업을 시도함
- 약 8~9피트 높이를 제안하며 정교한 관찰력을 보여줌
-
펠리컨 세기: "Count the pelicans" 프롬프트를 사용하여 사진 속 펠리컨 수를 계산
QvQ 모델 실행 방법
-
호스팅 환경
- Hugging Face Spaces에서 GPU 모델 가중치를 이용한 테스트 가능
- qwen-vl-utils Python 패키지를 활용해 실행
-
로컬 실행
- Prince Canuma가 Apple MLX 프레임워크용으로 모델을 변환하여 mlx-vlm 패키지를 통해 실행 가능
- macOS M2 64GB RAM 환경에서 4비트 양자화 버전으로 성공적으로 실행됨
- 실행 명령:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- 실행 명령:
QvQ 라이선스 변경
- QvQ 라이선스가 Apache 2.0에서 Qwen 라이선스로 변경됨
- 이는 초기 실수 수정으로 보임
-
QwQ 모델은 여전히 Apache 2.0 라이선스를 유지함
- 두 모델 간의 차별화된 라이선스 정책 확인됨
결론
- QvQ는 이미지와 텍스트를 결합한 강력한 시각적 추론 모델로, 다양한 실험에서 흥미로운 결과를 생성함
- 앞으로의 업데이트와 추가 활용 가능성이 기대됨
Hacker News 의견
-
M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
-
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
명령어를 사용함 - 결과는 링크에서 확인 가능함
-
-
이 모델은 재미있음
- 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
- 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨
-
단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함
- AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
- 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴
-
유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음
-
주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임
- QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함
-
Q* 모델이 오픈 소스인지 질문함
- 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함
-
펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음
- GPT-4와는 다른 캐주얼한 느낌을 줌
-
QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음
- Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음
-
QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임
-
수학 방정식 이미지를 처리할 수 있는 능력도 있음