Hacker News 의견
  • M2 64GB 랩톱에서 QVQ-72B-Preview-4bit 모델을 실행하여 이미지를 분석하는 방법을 설명함

    • uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg 명령어를 사용함
    • 결과는 링크에서 확인 가능함
  • 이 모델은 재미있음

    • 이미지를 업로드하고 "이 이미지를 보면서 생각을 말해보세요" 같은 질문을 하면 흥미로운 결과를 얻을 수 있음
    • 예를 들어, 샌드위치 이미지를 보고 세부적인 묘사를 하며 맛을 상상하게 됨
  • 단어 찾기 퍼즐 문제를 테스트로 사용했으나 QvQ 모델은 실패함

    • AI Studio의 Gemini 릴리스도 처음에는 실패했으나, 몇 번의 시도 끝에 성공적으로 단어를 찾음
    • 프로그램을 생성하여 문제를 해결하는 것이 직접적인 해결책을 요청하는 것보다 더 나은 결과를 가져옴
  • 유명한 "탱크 맨" 사진을 입력했을 때 빈 응답을 받음

  • 주석자가 이미지를 보면서 생각을 말하는 방식의 데이터셋이 PixMo임

    • QvQ도 이와 유사한 방식으로 훈련되었을 가능성을 제기함
  • Q* 모델이 오픈 소스인지 질문함

    • 권위에 대한 행위에 대한 조언을 요청했을 때 강력한 순응을 권장함
  • 펠리컨 사진을 보고 개수를 세는 질문을 했을 때의 응답 스타일이 재미있음

    • GPT-4와는 다른 캐주얼한 느낌을 줌
  • QvQ-72B-Preview 모델의 라이선스 문제에 대한 논의가 있음

    • Apache 2.0 라이선스와 Qwen 라이선스 간의 혼란이 있었음
  • QvQ 모델은 유명인, 개, The New Yorker 만화와 같은 사진을 분석하는 데 뛰어난 성능을 보임

  • 수학 방정식 이미지를 처리할 수 있는 능력도 있음