Qwen2.5-1M - 1백만 토큰까지 지원하는 Qwen을 자체 배포하기

(qwenlm.github.io)

4P by GN⁺ 11달전 | ★ favorite | 댓글 3개

Qwen2.5-1M는 컨텍스트 길이를 1M 토큰까지 지원하는 고성능 오픈소스 모델로 2달전에 공개했던 Qwen2.5-Turbo를 향상시킴
2개의 체크포인트 공개: Qwen2.5-7B-Instruct-1M과 Qwen2.5-14B-Instruct-1M
- Qwen 모델 최초로 1M 토큰 컨텍스트를 지원
추론 프레임워크 공개: vLLM 기반의 최적화된 추론 프레임워크 제공. 희소 주의집중(sparse attention) 기법 통합으로 1M 토큰 입력을 3~7배 더 빠르게 처리
기술 보고서 공개: 학습 및 추론 프레임워크 설계, 실험 결과에 대한 상세한 기술 보고서 공유

모델 성능

장문 컨텍스트 작업

Passkey Retrieval 평가: 1M 토큰 문서에서 정보를 정확히 추출. Qwen2.5-7B 모델은 약간의 오류 발생, Qwen2.5-14B는 높은 정확도 유지
복잡한 작업 평가:
- RULER, LV-Eval, LongbenchChat 등에서 Qwen2.5-1M 모델은 128K 모델보다 우수한 성능
- 특히 Qwen2.5-14B는 GPT-4o-mini와 비교해도 전반적으로 높은 성능

단문 컨텍스트 작업

단문 작업에서도 Qwen2.5-1M 모델이 128K 버전과 동일한 성능 유지
GPT-4o-mini와 비슷한 단문 작업 성능을 보이면서도 최대 8배 더 긴 컨텍스트를 지원

핵심 기술

장문 컨텍스트 학습

4K에서 256K로 컨텍스트 길이를 점진적으로 확장
RoPE 기반 조정, 단계별 학습 및 강화 학습 적용
Dual Chunk Attention(DCA) 기법으로 1M 토큰 컨텍스트로의 확장 지원
DCA가 학습 없이도 장문에서 높은 정확도 유지

희소 주의집중(Sparse Attention)

MInference 기반 희소 주의집중 도입
Chunked Prefill 통합: 메모리 사용량을 96.7% 절감
Length Extrapolation 통합: DCA와 결합하여 정확도 및 추론 효율성 향상
Sparsity Refinement on Long Sequences: 최적화된 희소화 구성 도입으로 장문에서 성능 손실 최소화
결과적으로 1M 토큰 길이에서 3.2배~6.7배 추론 속도 향상

로컬 환경에 Qwen2.5-1M 배포 하기

시스템 요구 사항

CUDA 12.1/12.3, Python 3.9~3.12
VRAM 요구 사항:
- Qwen2.5-7B: 120GB 이상
- Qwen2.5-14B: 320GB 이상

설치 및 실행

vLLM 저장소 클론 후 설치
OpenAI 호환 API 서비스 시작
Curl 또는 Python으로 모델 상호작용 가능

앞으로의 방향

더 효율적인 학습, 모델 아키텍처 및 추론 방법 연구 중
짧은 문맥과 긴 문맥 모두에서 우수한 성능을 목표로 개발
장문 컨텍스트 모델의 실용적 활용성을 확장해 나갈 계획

▲

yangeok 11달전 [-]

로컬에서 한국어 잘 굴러가려나요

답변달기

▲

xguru 11달전 [-]

2023-08-03 Alibaba, 오픈소스 AI 모델 QWEN 공개
2024-04-25 Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델
2024-06-07 Alibaba, Qwen 2 모델 공개
2024-09-19 Qwen2.5 - 여러 파운데이션 모델 공개
2024-11-28 QwQ - ChatGPT o1과 유사한 알리바바의 추론 LLM
2024-12-24 Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기

답변달기

▲

GN⁺ 11달전 [-]

Hacker News 의견

AI 코딩에서 매우 큰 컨텍스트 윈도우는 실제로 유용하지 않음. 약 25-30k 토큰 이상을 입력하면 모델이 혼란스러워짐
- gpt-4o, Sonnet, DeepSeek 등에서 이 문제가 발생함
- 많은 사용자들이 이 문제를 보고하며, 이를 해결하기 위한 전용 도움 페이지를 만듦
- 큰 컨텍스트는 "저가치" 컨텍스트가 많은 특정 작업에 유용할 수 있으나, 코딩에는 문제를 일으킬 수 있음
Ollama는 컨텍스트 윈도우 길이를 제어하는 num_ctx 파라미터가 있으며 기본값은 2048임
- macOS에서 MLX를 사용하여 실행하는 팁이 있음
메모리 중심 컴퓨팅의 최신 기술(SOTA)에 대한 논의
- AI 메모리 비용을 낮추기 위한 새로운 패러다임이 필요할 수 있음
- DRAM과 광학 인터커넥트를 연결하는 방법이 있을 수 있음
- 시퀀스에 의존하지 않는 트랜스포머와 같은 기능을 가진 것이 있는지 궁금함
128K 이상의 컨텍스트 길이를 가진 첫 번째 로컬 실행 가능한 모델이 1M으로 바로 증가했는지 확인하고 싶음
Mac에서 긴 프롬프트를 성공적으로 실행한 사람의 의견을 듣고 싶음
1M 컨텍스트 윈도우를 가진 API 전용 모델이 11월에 출시됨
네이티브 컨텍스트 길이에 대한 소문을 들었으나, 실제로 1M 컨텍스트 길이인지 잘 모름
- llama3 8b와 같은 모델은 더 큰 컨텍스트를 가진다고 하지만 실제로는 그렇지 않음
- 16gb vram에서 8k를 넘기기 어려움
모두가 컨텍스트 윈도우를 더 크게 만들고 있지만, 출력에 대한 고민도 필요함
- 수천 줄의 코드를 생성하고 싶음, 이에 대한 팁이 있는지 궁금함

답변달기