▲GN⁺ 2024-12-26 | parent | ★ favorite | on: Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기 (simonwillison.net)Hacker News 의견 M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함 uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함 결과는 링크에서 확인 가능함 이 모델은 재미있음 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨 단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함 AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴 유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음 주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임 QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함 Q* 모델이 오픈 소스인지 질문함 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함 펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음 GPT-4와는 다른 캐주얼한 느낌을 줌 QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음 Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음 QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임 수학 방정식 이미지를 처리할 수 있는 능력도 있음
Hacker News 의견
M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg명령어를 사용함이 모델은 재미있음
단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함
유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음
주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임
Q* 모델이 오픈 소스인지 질문함
펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음
QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음
QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임
수학 방정식 이미지를 처리할 수 있는 능력도 있음