Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기

(simonwillison.net)

5P by GN⁺ 2024-12-26 | ★ favorite | 댓글 1개

Alibaba Qwen 팀이 새로운 시각적 추론 모델 QvQ-72B-Preview를 발표
- 이미지와 프롬프트를 입력받아 상세한 추론을 수행
- 원래 Apache 2.0으로 표시되었으나 현재는 Qwen 라이선스로 변경됨
이전 모델 QwQ와의 차이점
- QwQ는 텍스트 기반 추론에 집중했으며, "생각의 경계를 반영하는" 메커니즘으로 설계됨
- QvQ는 이에 시각적 입력을 추가하여 이미지를 기반으로 깊이 있는 분석을 수행함

QvQ 사용 사례 및 테스트

Hugging Face Spaces에서 QvQ 모델 사용 가능
- 이미지와 단일 프롬프트를 입력하면 매우 긴 응답을 생성하며, 추가 프롬프트 입력은 불가능함
- 입력 이미지를 분석하며 순차적으로 추론 과정을 설명함
테스트 결과
- 펠리컨 세기: "Count the pelicans" 프롬프트를 사용하여 사진 속 펠리컨 수를 계산
  - 총 4마리의 펠리컨을 정확히 계산했으며, 부분적으로 보이는 새는 배제함
  - 친근하고 대화적인 문체로 추론을 설명함
- ARC-AGI 퍼즐: 복잡한 문제를 푸는 데 도전했으나 정확한 결과를 도출하지는 못함
  - 셀룰러 오토마타와 같은 독창적인 접근 방식을 제안
- 공룡(용) 높이 추정: 비교 가능한 물체 없이 용의 높이를 추정하는 작업을 시도함
  - 약 8~9피트 높이를 제안하며 정교한 관찰력을 보여줌

QvQ 모델 실행 방법

호스팅 환경
- Hugging Face Spaces에서 GPU 모델 가중치를 이용한 테스트 가능
- qwen-vl-utils Python 패키지를 활용해 실행

로컬 실행

Prince Canuma가 Apple MLX 프레임워크용으로 모델을 변환하여 mlx-vlm 패키지를 통해 실행 가능

macOS M2 64GB RAM 환경에서 4비트 양자화 버전으로 성공적으로 실행됨

실행 명령:

uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg

QvQ 라이선스 변경

QvQ 라이선스가 Apache 2.0에서 Qwen 라이선스로 변경됨
- 이는 초기 실수 수정으로 보임
QwQ 모델은 여전히 Apache 2.0 라이선스를 유지함
- 두 모델 간의 차별화된 라이선스 정책 확인됨

결론

QvQ는 이미지와 텍스트를 결합한 강력한 시각적 추론 모델로, 다양한 실험에서 흥미로운 결과를 생성함
앞으로의 업데이트와 추가 활용 가능성이 기대됨

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2024-12-26 [-]

Hacker News 의견

M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
- uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함
- 결과는 링크에서 확인 가능함
이 모델은 재미있음
- 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
- 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨
단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함
- AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
- 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴
유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음
주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임
- QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함
Q* 모델이 오픈 소스인지 질문함
- 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함
펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음
- GPT-4와는 다른 캐주얼한 느낌을 줌
QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음
- Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음
QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임
수학 방정식 이미지를 처리할 수 있는 능력도 있음

답변달기

Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기

QvQ 사용 사례 및 테스트

QvQ 모델 실행 방법

QvQ 라이선스 변경

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견