Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기

▲

GN⁺ 2024-12-26 | parent | ★ favorite | on: Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기 (simonwillison.net)

Hacker News 의견

M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
- uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함
- 결과는 링크에서 확인 가능함
이 모델은 재미있음
- 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
- 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨
단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함
- AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
- 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴
유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음
주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임
- QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함
Q* 모델이 오픈 소스인지 질문함
- 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함
펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음
- GPT-4와는 다른 캐주얼한 느낌을 줌
QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음
- Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음
QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임
수학 방정식 이미지를 처리할 수 있는 능력도 있음