Mac에서 잘 실행되는 우수한 코딩 능력의 LLM Qwen2.5-Coder-32B

(simonwillison.net)

7P by GN⁺ 8달전 | ★ favorite | 댓글 1개

Alibaba의 Qwen 연구팀에서 오픈 소스 (Apache 2.0 라이선스) LLM 시리즈인 Qwen2.5-Coder를 발표
Qwen2.5-Coder-32B-Instruct 모델은 GPT-4o 수준의 코딩 능력을 자랑한다고 주장함
32B 모델은 64GB MacBook Pro M2에서도 구동 가능할 만큼 상대적으로 작은 모델임
벤치마크 성능에서 GPT-4o, Claude 3.5 Sonnet 모델과 비슷하거나 더 높은 점수를 기록함

벤치마크 성능 비교

Qwen2.5-Coder-32B-Instruct 모델이 다음의 벤치마크에서 두각을 나타냄:
- LiveCodeBench, Spider, BIRD-SQL에서는 GPT-4o 및 Claude 3.5 Sonnet보다 우수한 성능을 기록
- MBPP, Aider, CodeArena에서는 성능이 약간 뒤처짐
- HumanEval, McEval에서는 비슷한 수준의 성능을 보임

Aider 벤치마크에서의 성능

Paul Gauthier의 Aider 벤치마크에서도 좋은 성과를 보였음
- "Whole edit" 벤치마크에서 Qwen2.5-Coder-32B-Instruct는 GPT-4o와 3.5 Haiku 사이의 성능을 기록
- 점수 비교:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- "Diff" 벤치마크에서는 GPT-4o와 동점, Claude 3.5 Haiku에는 약간 뒤처짐

Mac에서의 Qwen2.5-Coder 실행 테스트

사용자는 Qwen2.5-Coder-32B-Instruct-GGUF Q8 모델을 llm-gguf를 사용하여 실행 시도했으나, GPU를 사용하지 않아 속도가 느렸음
Ollama와 MLX 버전은 MacBook에서 잘 작동함
Ollama 설치 방법:
- ollama pull qwen2.5-coder:32b 명령어로 20GB 크기의 양자화된 파일을 다운로드
- Python 함수 생성 요청에 대해 ssl 문제를 제외하고는 성공적으로 작동함
MLX 사용:
- Apple Silicon의 MLX 프레임워크를 사용해 성능이 향상됨
- Mandelbrot 프랙탈 생성 코드를 터미널에서 실행해 ASCII 아트로 표현 성공
- 성능 지표:
  - 토큰 생성 속도: 10.016 tokens/sec
  - 메모리 사용량: 최대 32.685GB

추가 테스트: Pelican on a bicycle 벤치마크

llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' 요청 실행
결과물은 형태가 불분명한 펠리컨과 자전거 SVG 이미지였으나, 사용자 경험 측면에서는 흥미로움

결론 및 사용자 경험

32GB 메모리 사용량은 Mac에서 실행 가능한 수준으로, 다른 애플리케이션 종료 없이도 사용 가능
속도와 결과 품질 면에서 현존하는 호스팅 모델들과 경쟁할 만한 수준
사용자의 LLM 사용 중 80%가 코드 작성과 관련되므로, Qwen2.5-Coder는 의미 있는 개선이 될 것으로 보임

▲

savvykang 8달전 [-]

코딩 사용자 시나리오랑 조금 다르긴 한데 Claude의 JSON 모드는 어떻게 구현한건지 신기합니다. 몇몇 호스팅 모델들은 JSON 출력을 만들라고 유도해도 주석달린 자바스크립트나 마크다운 텍스트를 만들더라구요. 호스팅 모델 몇 번 써 본 경험으로는 매니지드 서비스를 이용하는게 결과물이 더 만족스러웠었습니다. 호스팅 모델로 구현 불가능한 무언가가 더 있는 것 같습니다

답변달기