# Mac에서 잘 실행되는 우수한 코딩 능력의 LLM Qwen2.5-Coder-32B

> Clean Markdown view of GeekNews topic #17763. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17763](https://news.hada.io/topic?id=17763)
- GeekNews Markdown: [https://news.hada.io/topic/17763.md](https://news.hada.io/topic/17763.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-15T04:19:58+09:00
- Updated: 2024-11-15T04:19:58+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2024/Nov/12/qwen25-coder/)
- Points: 7
- Comments: 1

## Topic Body

- Alibaba의 Qwen 연구팀에서 **오픈 소스 (Apache 2.0 라이선스) LLM** 시리즈인 **Qwen2.5-Coder**를 발표  
- Qwen2.5-Coder-32B-Instruct 모델은 **GPT-4o 수준의 코딩 능력**을 자랑한다고 주장함  
- **32B 모델**은 64GB MacBook Pro M2에서도 구동 가능할 만큼 상대적으로 작은 모델임  
- 벤치마크 성능에서 **GPT-4o**, **Claude 3.5 Sonnet** 모델과 비슷하거나 더 높은 점수를 기록함  
  
#### 벤치마크 성능 비교  
  
- **Qwen2.5-Coder-32B-Instruct** 모델이 다음의 벤치마크에서 두각을 나타냄:  
  - **LiveCodeBench**, **Spider**, **BIRD-SQL**에서는 GPT-4o 및 Claude 3.5 Sonnet보다 우수한 성능을 기록  
  - **MBPP**, **Aider**, **CodeArena**에서는 성능이 약간 뒤처짐  
  - **HumanEval**, **McEval**에서는 비슷한 수준의 성능을 보임  
  
#### Aider 벤치마크에서의 성능  
  
- Paul Gauthier의 **Aider 벤치마크**에서도 좋은 성과를 보였음  
  - "Whole edit" 벤치마크에서 Qwen2.5-Coder-32B-Instruct는 **GPT-4o와 3.5 Haiku 사이**의 성능을 기록  
  - **점수 비교**:  
    - 3.5 Sonnet: 84%  
    - 3.5 Haiku: 75%  
    - Qwen2.5-Coder 32B: 74%  
    - GPT-4o: 71%  
    - Qwen2.5-Coder 14B: 69%  
    - Qwen2.5-Coder 7B: 58%  
  - "Diff" 벤치마크에서는 **GPT-4o와 동점**, **Claude 3.5 Haiku**에는 약간 뒤처짐  
  
#### Mac에서의 Qwen2.5-Coder 실행 테스트  
  
- 사용자는 **Qwen2.5-Coder-32B-Instruct-GGUF** Q8 모델을 [llm-gguf](https://github.com/simonw/llm-gguf)를 사용하여 실행 시도했으나, GPU를 사용하지 않아 **속도가 느렸음**  
- **Ollama**와 **MLX** 버전은 MacBook에서 잘 작동함  
- **Ollama 설치 방법**:  
  - `ollama pull qwen2.5-coder:32b` 명령어로 **20GB 크기의 양자화된 파일**을 다운로드  
  - Python 함수 생성 요청에 대해 **ssl 문제**를 제외하고는 성공적으로 작동함  
- **MLX 사용**:  
  - Apple Silicon의 **MLX 프레임워크**를 사용해 성능이 향상됨  
  - Mandelbrot 프랙탈 생성 코드를 터미널에서 실행해 **ASCII 아트로 표현** 성공  
  - **성능 지표**:  
    - 토큰 생성 속도: 10.016 tokens/sec  
    - 메모리 사용량: 최대 **32.685GB**  
  
#### 추가 테스트: Pelican on a bicycle 벤치마크  
  
- `llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'` 요청 실행  
- 결과물은 **형태가 불분명한 펠리컨과 자전거 SVG 이미지**였으나, 사용자 경험 측면에서는 흥미로움  
  
#### 결론 및 사용자 경험  
  
- **32GB** 메모리 사용량은 Mac에서 실행 가능한 수준으로, 다른 애플리케이션 종료 없이도 사용 가능  
- **속도와 결과 품질** 면에서 현존하는 호스팅 모델들과 경쟁할 만한 수준  
- 사용자의 LLM 사용 중 **80%가 코드 작성**과 관련되므로, Qwen2.5-Coder는 의미 있는 개선이 될 것으로 보임

## Comments


### Comment 31304

- Author: savvykang
- Created: 2024-11-15T13:16:24+09:00
- Points: 1

코딩 사용자 시나리오랑 조금 다르긴 한데 Claude의 JSON 모드는 어떻게 구현한건지 신기합니다. 몇몇 호스팅 모델들은 JSON 출력을 만들라고 유도해도 주석달린 자바스크립트나 마크다운 텍스트를 만들더라구요. 호스팅 모델 몇 번 써 본 경험으로는 매니지드 서비스를 이용하는게 결과물이 더 만족스러웠었습니다. 호스팅 모델로 구현 불가능한 무언가가 더 있는 것 같습니다