# Qwen2.5-1M - 1백만 토큰까지 지원하는 Qwen을 자체 배포하기

> Clean Markdown view of GeekNews topic #18962. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18962](https://news.hada.io/topic?id=18962)
- GeekNews Markdown: [https://news.hada.io/topic/18962.md](https://news.hada.io/topic/18962.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-29T10:24:18+09:00
- Updated: 2025-01-29T10:24:18+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwen2.5-1m/)
- Points: 4
- Comments: 3

## Summary

Qwen2.5-1M은 1백만 토큰까지 지원하는 고성능 오픈소스 모델로, Qwen2.5-Turbo를 향상시킨 버전입니다. 이 모델은 장문 및 단문 작업에서 뛰어난 성능을 보이며, 특히 Qwen2.5-14B는 GPT-4o-mini와 비교해도 높은 성능을 유지합니다. 또한, 희소 주의집중 기법과 Dual Chunk Attention을 통해 메모리 사용량을 절감하고, 1M 토큰 길이에서 빠른 추론 속도를 제공합니다.

## Topic Body

- Qwen2.5-1M는 컨텍스트 길이를 1M 토큰까지 지원하는 고성능 오픈소스 모델로 2달전에 공개했던 Qwen2.5-Turbo를 향상시킴   
- 2개의 체크포인트 공개: Qwen2.5-7B-Instruct-1M과 Qwen2.5-14B-Instruct-1M   
  - Qwen 모델 최초로 1M 토큰 컨텍스트를 지원  
- 추론 프레임워크 공개: vLLM 기반의 최적화된 추론 프레임워크 제공. 희소 주의집중(sparse attention) 기법 통합으로 1M 토큰 입력을 **3~7배 더 빠르게 처리**  
- 기술 보고서 공개: 학습 및 추론 프레임워크 설계, 실험 결과에 대한 상세한 기술 보고서 공유  
  
### 모델 성능  
  
#### 장문 컨텍스트 작업  
- **Passkey Retrieval 평가**: 1M 토큰 문서에서 정보를 정확히 추출. Qwen2.5-7B 모델은 약간의 오류 발생, Qwen2.5-14B는 높은 정확도 유지  
- **복잡한 작업 평가**:  
  - RULER, LV-Eval, LongbenchChat 등에서 Qwen2.5-1M 모델은 128K 모델보다 우수한 성능  
  - 특히 Qwen2.5-14B는 GPT-4o-mini와 비교해도 전반적으로 높은 성능  
  
#### 단문 컨텍스트 작업  
- 단문 작업에서도 Qwen2.5-1M 모델이 128K 버전과 동일한 성능 유지  
- GPT-4o-mini와 비슷한 단문 작업 성능을 보이면서도 최대 8배 더 긴 컨텍스트를 지원  
  
### 핵심 기술  
  
#### 장문 컨텍스트 학습  
- 4K에서 256K로 컨텍스트 길이를 점진적으로 확장  
- RoPE 기반 조정, 단계별 학습 및 강화 학습 적용  
- **Dual Chunk Attention(DCA)** 기법으로 1M 토큰 컨텍스트로의 확장 지원  
- DCA가 학습 없이도 장문에서 높은 정확도 유지  
  
#### 희소 주의집중(Sparse Attention)  
- MInference 기반 희소 주의집중 도입  
- **Chunked Prefill 통합**: 메모리 사용량을 96.7% 절감  
- **Length Extrapolation 통합**: DCA와 결합하여 정확도 및 추론 효율성 향상  
- **Sparsity Refinement on Long Sequences**: 최적화된 희소화 구성 도입으로 장문에서 성능 손실 최소화  
- 결과적으로 1M 토큰 길이에서 3.2배~6.7배 추론 속도 향상  
  
### 로컬 환경에 Qwen2.5-1M 배포 하기   
  
#### 시스템 요구 사항  
- **CUDA 12.1/12.3**, Python 3.9~3.12  
- **VRAM 요구 사항**:  
  - Qwen2.5-7B: 120GB 이상  
  - Qwen2.5-14B: 320GB 이상  
  
#### 설치 및 실행  
1. vLLM 저장소 클론 후 설치  
2. OpenAI 호환 API 서비스 시작  
3. Curl 또는 Python으로 모델 상호작용 가능  
  
### 앞으로의 방향  
- 더 효율적인 학습, 모델 아키텍처 및 추론 방법 연구 중  
- 짧은 문맥과 긴 문맥 모두에서 우수한 성능을 목표로 개발  
- 장문 컨텍스트 모델의 실용적 활용성을 확장해 나갈 계획

## Comments


### Comment 33966

- Author: yangeok
- Created: 2025-01-30T10:57:29+09:00
- Points: 1

로컬에서 한국어 잘 굴러가려나요

### Comment 33946

- Author: xguru
- Created: 2025-01-29T10:28:08+09:00
- Points: 1

2023-08-03 [Alibaba, 오픈소스 AI 모델 QWEN 공개](https://news.hada.io/topic?id=10249)  
2024-04-25 [Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델](https://news.hada.io/topic?id=14530)  
2024-06-07 [Alibaba, Qwen 2 모델 공개](https://news.hada.io/topic?id=15235)  
2024-09-19 [Qwen2.5 - 여러 파운데이션 모델 공개](https://news.hada.io/topic?id=16852)  
2024-11-28 [QwQ - ChatGPT o1과 유사한 알리바바의 추론 LLM](https://news.hada.io/topic?id=18002)  
2024-12-24 [Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기](https://news.hada.io/topic?id=18441)

### Comment 33945

- Author: neo
- Created: 2025-01-29T10:24:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42831769) 
- AI 코딩에서 매우 큰 컨텍스트 윈도우는 실제로 유용하지 않음. 약 25-30k 토큰 이상을 입력하면 모델이 혼란스러워짐
  - gpt-4o, Sonnet, DeepSeek 등에서 이 문제가 발생함
  - 많은 사용자들이 이 문제를 보고하며, 이를 해결하기 위한 전용 도움 페이지를 만듦
  - 큰 컨텍스트는 "저가치" 컨텍스트가 많은 특정 작업에 유용할 수 있으나, 코딩에는 문제를 일으킬 수 있음

- Ollama는 컨텍스트 윈도우 길이를 제어하는 num_ctx 파라미터가 있으며 기본값은 2048임
  - macOS에서 MLX를 사용하여 실행하는 팁이 있음

- 메모리 중심 컴퓨팅의 최신 기술(SOTA)에 대한 논의
  - AI 메모리 비용을 낮추기 위한 새로운 패러다임이 필요할 수 있음
  - DRAM과 광학 인터커넥트를 연결하는 방법이 있을 수 있음
  - 시퀀스에 의존하지 않는 트랜스포머와 같은 기능을 가진 것이 있는지 궁금함

- 128K 이상의 컨텍스트 길이를 가진 첫 번째 로컬 실행 가능한 모델이 1M으로 바로 증가했는지 확인하고 싶음

- Mac에서 긴 프롬프트를 성공적으로 실행한 사람의 의견을 듣고 싶음

- 1M 컨텍스트 윈도우를 가진 API 전용 모델이 11월에 출시됨

- 네이티브 컨텍스트 길이에 대한 소문을 들었으나, 실제로 1M 컨텍스트 길이인지 잘 모름
  - llama3 8b와 같은 모델은 더 큰 컨텍스트를 가진다고 하지만 실제로는 그렇지 않음
  - 16gb vram에서 8k를 넘기기 어려움

- 모두가 컨텍스트 윈도우를 더 크게 만들고 있지만, 출력에 대한 고민도 필요함
  - 수천 줄의 코드를 생성하고 싶음, 이에 대한 팁이 있는지 궁금함