4P by neo 31일전 | ★ favorite | 댓글 3개
  • Qwen2.5-1M는 컨텍스트 길이를 1M 토큰까지 지원하는 고성능 오픈소스 모델로 2달전에 공개했던 Qwen2.5-Turbo를 향상시킴
  • 2개의 체크포인트 공개: Qwen2.5-7B-Instruct-1M과 Qwen2.5-14B-Instruct-1M
    • Qwen 모델 최초로 1M 토큰 컨텍스트를 지원
  • 추론 프레임워크 공개: vLLM 기반의 최적화된 추론 프레임워크 제공. 희소 주의집중(sparse attention) 기법 통합으로 1M 토큰 입력을 3~7배 더 빠르게 처리
  • 기술 보고서 공개: 학습 및 추론 프레임워크 설계, 실험 결과에 대한 상세한 기술 보고서 공유

모델 성능

장문 컨텍스트 작업

  • Passkey Retrieval 평가: 1M 토큰 문서에서 정보를 정확히 추출. Qwen2.5-7B 모델은 약간의 오류 발생, Qwen2.5-14B는 높은 정확도 유지
  • 복잡한 작업 평가:
    • RULER, LV-Eval, LongbenchChat 등에서 Qwen2.5-1M 모델은 128K 모델보다 우수한 성능
    • 특히 Qwen2.5-14B는 GPT-4o-mini와 비교해도 전반적으로 높은 성능

단문 컨텍스트 작업

  • 단문 작업에서도 Qwen2.5-1M 모델이 128K 버전과 동일한 성능 유지
  • GPT-4o-mini와 비슷한 단문 작업 성능을 보이면서도 최대 8배 더 긴 컨텍스트를 지원

핵심 기술

장문 컨텍스트 학습

  • 4K에서 256K로 컨텍스트 길이를 점진적으로 확장
  • RoPE 기반 조정, 단계별 학습 및 강화 학습 적용
  • Dual Chunk Attention(DCA) 기법으로 1M 토큰 컨텍스트로의 확장 지원
  • DCA가 학습 없이도 장문에서 높은 정확도 유지

희소 주의집중(Sparse Attention)

  • MInference 기반 희소 주의집중 도입
  • Chunked Prefill 통합: 메모리 사용량을 96.7% 절감
  • Length Extrapolation 통합: DCA와 결합하여 정확도 및 추론 효율성 향상
  • Sparsity Refinement on Long Sequences: 최적화된 희소화 구성 도입으로 장문에서 성능 손실 최소화
  • 결과적으로 1M 토큰 길이에서 3.2배~6.7배 추론 속도 향상

로컬 환경에 Qwen2.5-1M 배포 하기

시스템 요구 사항

  • CUDA 12.1/12.3, Python 3.9~3.12
  • VRAM 요구 사항:
    • Qwen2.5-7B: 120GB 이상
    • Qwen2.5-14B: 320GB 이상

설치 및 실행

  1. vLLM 저장소 클론 후 설치
  2. OpenAI 호환 API 서비스 시작
  3. Curl 또는 Python으로 모델 상호작용 가능

앞으로의 방향

  • 더 효율적인 학습, 모델 아키텍처 및 추론 방법 연구 중
  • 짧은 문맥과 긴 문맥 모두에서 우수한 성능을 목표로 개발
  • 장문 컨텍스트 모델의 실용적 활용성을 확장해 나갈 계획

로컬에서 한국어 잘 굴러가려나요

Hacker News 의견
  • AI 코딩에서 매우 큰 컨텍스트 윈도우는 실제로 유용하지 않음. 약 25-30k 토큰 이상을 입력하면 모델이 혼란스러워짐

    • gpt-4o, Sonnet, DeepSeek 등에서 이 문제가 발생함
    • 많은 사용자들이 이 문제를 보고하며, 이를 해결하기 위한 전용 도움 페이지를 만듦
    • 큰 컨텍스트는 "저가치" 컨텍스트가 많은 특정 작업에 유용할 수 있으나, 코딩에는 문제를 일으킬 수 있음
  • Ollama는 컨텍스트 윈도우 길이를 제어하는 num_ctx 파라미터가 있으며 기본값은 2048임

    • macOS에서 MLX를 사용하여 실행하는 팁이 있음
  • 메모리 중심 컴퓨팅의 최신 기술(SOTA)에 대한 논의

    • AI 메모리 비용을 낮추기 위한 새로운 패러다임이 필요할 수 있음
    • DRAM과 광학 인터커넥트를 연결하는 방법이 있을 수 있음
    • 시퀀스에 의존하지 않는 트랜스포머와 같은 기능을 가진 것이 있는지 궁금함
  • 128K 이상의 컨텍스트 길이를 가진 첫 번째 로컬 실행 가능한 모델이 1M으로 바로 증가했는지 확인하고 싶음

  • Mac에서 긴 프롬프트를 성공적으로 실행한 사람의 의견을 듣고 싶음

  • 1M 컨텍스트 윈도우를 가진 API 전용 모델이 11월에 출시됨

  • 네이티브 컨텍스트 길이에 대한 소문을 들었으나, 실제로 1M 컨텍스트 길이인지 잘 모름

    • llama3 8b와 같은 모델은 더 큰 컨텍스트를 가진다고 하지만 실제로는 그렇지 않음
    • 16gb vram에서 8k를 넘기기 어려움
  • 모두가 컨텍스트 윈도우를 더 크게 만들고 있지만, 출력에 대한 고민도 필요함

    • 수천 줄의 코드를 생성하고 싶음, 이에 대한 팁이 있는지 궁금함