# Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기

> Clean Markdown view of GeekNews topic #18441. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18441](https://news.hada.io/topic?id=18441)
- GeekNews Markdown: [https://news.hada.io/topic/18441.md](https://news.hada.io/topic/18441.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-12-26T09:57:58+09:00
- Updated: 2024-12-26T09:57:58+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2024/Dec/24/qvq/)
- Points: 5
- Comments: 1

## Summary

Alibaba Qwen 팀이 발표한 새로운 시각적 추론 모델 QvQ-72B-Preview는 이미지와 프롬프트를 입력받아 깊이 있는 분석을 수행합니다. QvQ는 이전의 QwQ 모델과 달리 시각적 입력을 추가하여 이미지 기반의 추론을 가능하게 했으며, 다양한 테스트에서 흥미로운 결과를 보여주었습니다. 앞으로의 업데이트와 추가 활용 가능성이 기대됩니다.

## Topic Body

- Alibaba Qwen 팀이 새로운 시각적 추론 모델 QvQ-72B-Preview를 발표  
  - 이미지와 프롬프트를 입력받아 상세한 추론을 수행   
  - 원래 Apache 2.0으로 표시되었으나 현재는 Qwen 라이선스로 변경됨  
- 이전 모델 QwQ와의 차이점  
  - QwQ는 텍스트 기반 추론에 집중했으며, "생각의 경계를 반영하는" 메커니즘으로 설계됨  
  - QvQ는 이에 시각적 입력을 추가하여 이미지를 기반으로 깊이 있는 분석을 수행함  
  
### QvQ 사용 사례 및 테스트  
  
- Hugging Face Spaces에서 QvQ 모델 사용 가능  
  - 이미지와 단일 프롬프트를 입력하면 매우 긴 응답을 생성하며, 추가 프롬프트 입력은 불가능함  
  - 입력 이미지를 분석하며 순차적으로 추론 과정을 설명함  
- 테스트 결과  
  - **펠리컨 세기**: "Count the pelicans" 프롬프트를 사용하여 사진 속 펠리컨 수를 계산  
    - 총 4마리의 펠리컨을 정확히 계산했으며, 부분적으로 보이는 새는 배제함  
    - 친근하고 대화적인 문체로 추론을 설명함  
  - **ARC-AGI 퍼즐**: 복잡한 문제를 푸는 데 도전했으나 정확한 결과를 도출하지는 못함  
    - 셀룰러 오토마타와 같은 독창적인 접근 방식을 제안  
  - **공룡(용) 높이 추정**: 비교 가능한 물체 없이 용의 높이를 추정하는 작업을 시도함  
    - 약 8~9피트 높이를 제안하며 정교한 관찰력을 보여줌  
  
### QvQ 모델 실행 방법  
  
- **호스팅 환경**  
  - [Hugging Face Spaces](https://huggingface.co/spaces/Qwen/QVQ-72B-preview)에서 GPU 모델 가중치를 이용한 테스트 가능  
  - [qwen-vl-utils](https://pypi.org/project/qwen-vl-utils/) Python 패키지를 활용해 실행  
  
- **로컬 실행**  
  - Prince Canuma가 Apple MLX 프레임워크용으로 모델을 변환하여 **mlx-vlm 패키지**를 통해 실행 가능  
  - macOS M2 64GB RAM 환경에서 4비트 양자화 버전으로 성공적으로 실행됨  
    - 실행 명령:  
      ```bash  
      uv run --with 'numpy<2.0' --with mlx-vlm python \  
        -m mlx_vlm.generate \  
        --model mlx-community/QVQ-72B-Preview-4bit \  
        --max-tokens 10000 \  
        --temp 0.0 \  
        --prompt "describe this" \  
        --image pelicans-on-bicycles-veo2.jpg  
      ```  
### QvQ 라이선스 변경  
  
- QvQ 라이선스가 Apache 2.0에서 **Qwen 라이선스**로 변경됨  
  - 이는 초기 실수 수정으로 보임  
- **QwQ 모델**은 여전히 Apache 2.0 라이선스를 유지함  
  - 두 모델 간의 차별화된 라이선스 정책 확인됨  
  
### 결론  
  
- **QvQ**는 이미지와 텍스트를 결합한 강력한 시각적 추론 모델로, 다양한 실험에서 흥미로운 결과를 생성함  
- 앞으로의 업데이트와 추가 활용 가능성이 기대됨

## Comments



### Comment 32696

- Author: neo
- Created: 2024-12-26T09:57:58+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42505038) 
- M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
  - `uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg` 명령어를 사용함
  - 결과는 [링크](https://simonwillison.net/2024/Dec/24/qvq/#with-mlx-vlm)에서 확인 가능함

- 이 모델은 재미있음
  - 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
  - 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨

- 단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함
  - AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
  - 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴

- 유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음

- 주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임
  - QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함

- Q* 모델이 오픈 소스인지 질문함
  - 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함

- 펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음
  - GPT-4와는 다른 캐주얼한 느낌을 줌

- QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음
  - Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음

- QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임

- 수학 방정식 이미지를 처리할 수 있는 능력도 있음
