5P by neo 9일전 | favorite | 댓글 1개
  • Alibaba Qwen 팀이 새로운 시각적 추론 모델 QvQ-72B-Preview를 발표
    • 이미지와 프롬프트를 입력받아 상세한 추론을 수행
    • 원래 Apache 2.0으로 표시되었으나 현재는 Qwen 라이선스로 변경됨
  • 이전 모델 QwQ와의 차이점
    • QwQ는 텍스트 기반 추론에 집중했으며, "생각의 경계를 반영하는" 메커니즘으로 설계됨
    • QvQ는 이에 시각적 입력을 추가하여 이미지를 기반으로 깊이 있는 분석을 수행함

QvQ 사용 사례 및 테스트

  • Hugging Face Spaces에서 QvQ 모델 사용 가능
    • 이미지와 단일 프롬프트를 입력하면 매우 긴 응답을 생성하며, 추가 프롬프트 입력은 불가능함
    • 입력 이미지를 분석하며 순차적으로 추론 과정을 설명함
  • 테스트 결과
    • 펠리컨 세기: "Count the pelicans" 프롬프트를 사용하여 사진 속 펠리컨 수를 계산
      • 총 4마리의 펠리컨을 정확히 계산했으며, 부분적으로 보이는 새는 배제함
      • 친근하고 대화적인 문체로 추론을 설명함
    • ARC-AGI 퍼즐: 복잡한 문제를 푸는 데 도전했으나 정확한 결과를 도출하지는 못함
      • 셀룰러 오토마타와 같은 독창적인 접근 방식을 제안
    • 공룡(용) 높이 추정: 비교 가능한 물체 없이 용의 높이를 추정하는 작업을 시도함
      • 약 8~9피트 높이를 제안하며 정교한 관찰력을 보여줌

QvQ 모델 실행 방법

  • 호스팅 환경

  • 로컬 실행

    • Prince Canuma가 Apple MLX 프레임워크용으로 모델을 변환하여 mlx-vlm 패키지를 통해 실행 가능
    • macOS M2 64GB RAM 환경에서 4비트 양자화 버전으로 성공적으로 실행됨
      • 실행 명령:
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

QvQ 라이선스 변경

  • QvQ 라이선스가 Apache 2.0에서 Qwen 라이선스로 변경됨
    • 이는 초기 실수 수정으로 보임
  • QwQ 모델은 여전히 Apache 2.0 라이선스를 유지함
    • 두 모델 간의 차별화된 라이선스 정책 확인됨

결론

  • QvQ는 이미지와 텍스트를 결합한 강력한 시각적 추론 모델로, 다양한 실험에서 흥미로운 결과를 생성함
  • 앞으로의 업데이트와 추가 활용 가능성이 기대됨
Hacker News 의견
  • M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함

    • uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함
    • 결과는 링크에서 확인 가능함
  • 이 모델은 재미있음

    • 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
    • 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨
  • 단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함

    • AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
    • 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴
  • 유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음

  • 주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임

    • QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함
  • Q* 모델이 오픈 소스인지 질문함

    • 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함
  • 펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음

    • GPT-4와는 다른 캐주얼한 느낌을 줌
  • QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음

    • Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음
  • QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임

  • 수학 방정식 이미지를 처리할 수 있는 능력도 있음