- Alibaba의 Qwen 연구팀에서 오픈 소스 (Apache 2.0 라이선스) LLM 시리즈인 Qwen2.5-Coder를 발표
- Qwen2.5-Coder-32B-Instruct 모델은 GPT-4o 수준의 코딩 능력을 자랑한다고 주장함
-
32B 모델은 64GB MacBook Pro M2에서도 구동 가능할 만큼 상대적으로 작은 모델임
- 벤치마크 성능에서 GPT-4o, Claude 3.5 Sonnet 모델과 비슷하거나 더 높은 점수를 기록함
벤치마크 성능 비교
-
Qwen2.5-Coder-32B-Instruct 모델이 다음의 벤치마크에서 두각을 나타냄:
-
LiveCodeBench, Spider, BIRD-SQL에서는 GPT-4o 및 Claude 3.5 Sonnet보다 우수한 성능을 기록
-
MBPP, Aider, CodeArena에서는 성능이 약간 뒤처짐
-
HumanEval, McEval에서는 비슷한 수준의 성능을 보임
Aider 벤치마크에서의 성능
- Paul Gauthier의 Aider 벤치마크에서도 좋은 성과를 보였음
- "Whole edit" 벤치마크에서 Qwen2.5-Coder-32B-Instruct는 GPT-4o와 3.5 Haiku 사이의 성능을 기록
-
점수 비교:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- "Diff" 벤치마크에서는 GPT-4o와 동점, Claude 3.5 Haiku에는 약간 뒤처짐
Mac에서의 Qwen2.5-Coder 실행 테스트
- 사용자는 Qwen2.5-Coder-32B-Instruct-GGUF Q8 모델을 llm-gguf를 사용하여 실행 시도했으나, GPU를 사용하지 않아 속도가 느렸음
-
Ollama와 MLX 버전은 MacBook에서 잘 작동함
-
Ollama 설치 방법:
-
ollama pull qwen2.5-coder:32b
명령어로 20GB 크기의 양자화된 파일을 다운로드
- Python 함수 생성 요청에 대해 ssl 문제를 제외하고는 성공적으로 작동함
-
MLX 사용:
- Apple Silicon의 MLX 프레임워크를 사용해 성능이 향상됨
- Mandelbrot 프랙탈 생성 코드를 터미널에서 실행해 ASCII 아트로 표현 성공
-
성능 지표:
- 토큰 생성 속도: 10.016 tokens/sec
- 메모리 사용량: 최대 32.685GB
추가 테스트: Pelican on a bicycle 벤치마크
-
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
요청 실행
- 결과물은 형태가 불분명한 펠리컨과 자전거 SVG 이미지였으나, 사용자 경험 측면에서는 흥미로움
결론 및 사용자 경험
-
32GB 메모리 사용량은 Mac에서 실행 가능한 수준으로, 다른 애플리케이션 종료 없이도 사용 가능
-
속도와 결과 품질 면에서 현존하는 호스팅 모델들과 경쟁할 만한 수준
- 사용자의 LLM 사용 중 80%가 코드 작성과 관련되므로, Qwen2.5-Coder는 의미 있는 개선이 될 것으로 보임