7P by neo 21일전 | favorite | 댓글 1개
  • Alibaba의 Qwen 연구팀에서 오픈 소스 (Apache 2.0 라이선스) LLM 시리즈인 Qwen2.5-Coder를 발표
  • Qwen2.5-Coder-32B-Instruct 모델은 GPT-4o 수준의 코딩 능력을 자랑한다고 주장함
  • 32B 모델은 64GB MacBook Pro M2에서도 구동 가능할 만큼 상대적으로 작은 모델임
  • 벤치마크 성능에서 GPT-4o, Claude 3.5 Sonnet 모델과 비슷하거나 더 높은 점수를 기록함

벤치마크 성능 비교

  • Qwen2.5-Coder-32B-Instruct 모델이 다음의 벤치마크에서 두각을 나타냄:
    • LiveCodeBench, Spider, BIRD-SQL에서는 GPT-4o 및 Claude 3.5 Sonnet보다 우수한 성능을 기록
    • MBPP, Aider, CodeArena에서는 성능이 약간 뒤처짐
    • HumanEval, McEval에서는 비슷한 수준의 성능을 보임

Aider 벤치마크에서의 성능

  • Paul Gauthier의 Aider 벤치마크에서도 좋은 성과를 보였음
    • "Whole edit" 벤치마크에서 Qwen2.5-Coder-32B-Instruct는 GPT-4o와 3.5 Haiku 사이의 성능을 기록
    • 점수 비교:
      • 3.5 Sonnet: 84%
      • 3.5 Haiku: 75%
      • Qwen2.5-Coder 32B: 74%
      • GPT-4o: 71%
      • Qwen2.5-Coder 14B: 69%
      • Qwen2.5-Coder 7B: 58%
    • "Diff" 벤치마크에서는 GPT-4o와 동점, Claude 3.5 Haiku에는 약간 뒤처짐

Mac에서의 Qwen2.5-Coder 실행 테스트

  • 사용자는 Qwen2.5-Coder-32B-Instruct-GGUF Q8 모델을 llm-gguf를 사용하여 실행 시도했으나, GPU를 사용하지 않아 속도가 느렸음
  • OllamaMLX 버전은 MacBook에서 잘 작동함
  • Ollama 설치 방법:
    • ollama pull qwen2.5-coder:32b 명령어로 20GB 크기의 양자화된 파일을 다운로드
    • Python 함수 생성 요청에 대해 ssl 문제를 제외하고는 성공적으로 작동함
  • MLX 사용:
    • Apple Silicon의 MLX 프레임워크를 사용해 성능이 향상됨
    • Mandelbrot 프랙탈 생성 코드를 터미널에서 실행해 ASCII 아트로 표현 성공
    • 성능 지표:
      • 토큰 생성 속도: 10.016 tokens/sec
      • 메모리 사용량: 최대 32.685GB

추가 테스트: Pelican on a bicycle 벤치마크

  • llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' 요청 실행
  • 결과물은 형태가 불분명한 펠리컨과 자전거 SVG 이미지였으나, 사용자 경험 측면에서는 흥미로움

결론 및 사용자 경험

  • 32GB 메모리 사용량은 Mac에서 실행 가능한 수준으로, 다른 애플리케이션 종료 없이도 사용 가능
  • 속도와 결과 품질 면에서 현존하는 호스팅 모델들과 경쟁할 만한 수준
  • 사용자의 LLM 사용 중 80%가 코드 작성과 관련되므로, Qwen2.5-Coder는 의미 있는 개선이 될 것으로 보임

코딩 사용자 시나리오랑 조금 다르긴 한데 Claude의 JSON 모드는 어떻게 구현한건지 신기합니다. 몇몇 호스팅 모델들은 JSON 출력을 만들라고 유도해도 주석달린 자바스크립트나 마크다운 텍스트를 만들더라구요. 호스팅 모델 몇 번 써 본 경험으로는 매니지드 서비스를 이용하는게 결과물이 더 만족스러웠었습니다. 호스팅 모델로 구현 불가능한 무언가가 더 있는 것 같습니다