Sky-T1: $450로 o1 preview급의 고성능 추론 모델 훈련하기

(novasky-ai.github.io)

22P by xguru 7달전 | ★ favorite | 댓글 1개

Sky-T1-32B-Preview는 o1-preview와 비슷한 수준의 성능을 발휘하는 추론 및 코딩 모델로 $450(65만원)의 적은 비용만으로 훈련됨
모든 코드가 오픈소스로 제공되어 누구나 재현 및 개선 가능
- o1 및 Gemini 2.0과 같은 고성능 추론 모델은 복잡한 작업을 해결할 수 있지만, 기술 세부 사항과 모델 가중치가 비공개로 유지되어 있음

완전한 오픈소스: 함께 발전하기

Sky-T1-32B-Preview는 모든 세부 정보를 오픈소스화:
- 인프라: 데이터 구축, 모델 훈련 및 평가를 위한 통합 리포지토리
- 데이터: 17,000개의 훈련 데이터 제공
- 기술 세부 정보: 기술 보고서 및 wandb 로그
- 모델 가중치: 32B 크기의 모델 가중치

만드는 방법(Recipes)

데이터 준비 과정

QwQ-32B-Preview 모델을 사용하여 데이터를 생성하고, 다양한 도메인을 아우르는 데이터 혼합을 구성
재구성 및 포맷 개선:
- QwQ 데이터를 GPT-4o-mini로 다시 포맷하여 추론 모델의 학습 효율 향상
- 재포맷을 통해 코딩 데이터 정확도를 25%에서 90% 이상으로 향상
거절 샘플링:
- 수학 문제: 정확한 정답과 비교하여 부정확한 샘플 제거
- 코딩 문제: 데이터셋의 단위 테스트를 실행하여 정답 확인
최종 데이터:
- 코딩 데이터: APPs 및 TACO 데이터셋에서 5,000개
- 수학 데이터: NuminaMATH의 AIME, MATH, Olympiads에서 10,000개
- 기타 데이터: 과학 및 퍼즐 문제 1,000개

훈련 과정

훈련 모델: Qwen2.5-32B-Instruct (추론 기능이 없는 오픈소스 모델)
훈련 환경:
- 8 H100 GPU 사용, DeepSpeed Zero-3 오프로딩
- 훈련 시간: 19시간
- 비용: 약 $450 (Lambda Cloud 기준)
Llama-Factory를 사용해 훈련 수행

평가 및 결과 요약

Sky-T1-32B-Preview는 다양한 벤치마크에서 경쟁 모델들과 비교해 다음과 같은 성능을 보여줌:
- Math500: Sky-T1이 82.4%로, o1-preview(81.4%)와 거의 동등하며 Qwen-2.5(76.2%)를 크게 앞섬
- AIME2024: Sky-T1은 43.3%로 o1-preview(40.0%)보다 높고, Qwen-2.5(16.7%)에 비해 월등히 우수
- LiveCodeBench (Easy): Sky-T1은 86.3%로 Qwen-2.5(84.6%)와 비슷하며, o1-preview(92.9%)와의 격차는 적음
- LiveCodeBench (Medium): Sky-T1은 56.8%로, o1-preview(54.9%)보다 높고 Qwen-2.5(40.8%)에 비해 크게 앞섬
- LiveCodeBench (Hard): Sky-T1은 17.9%로 o1-preview(16.3%)를 약간 능가하며, Qwen-2.5(9.8%)와는 큰 차이를 보임
- GPQA-Diamond: Sky-T1은 56.8%로 QwQ(52.5%)보다 약간 앞서지만, o1-preview(75.2%)보다는 낮은 성능
Sky-T1-32B-Preview는 수학 및 코딩 두 분야에서 강력한 성능을 보이며, 특히 중간 난이도의 코딩 작업에서 우위를 점함
수학 관련 벤치마크에서도 상위권에 속하며, 전반적으로 효율적이고 강력한 모델임을 입증함.

주요 발견

모델 크기의 중요성:
- 7B 및 14B 크기의 모델로는 제한적인 개선만 확인
- 32B 모델이 성능과 결과의 일관성 면에서 월등히 우수
데이터 혼합의 중요성:
- 단일 도메인 데이터로 훈련 시 성능이 저하될 수 있음
- 수학 및 코딩 데이터를 균형 있게 혼합하여 두 도메인에서 우수한 성능 달성

향후 계획

효율성을 유지하면서 높은 추론 성능을 발휘하는 모델 개발에 주력
테스트 시간 효율성과 정확성을 향상시키는 고급 기술 연구
커뮤니티와의 협력을 통해 더 발전된 모델 개발 목표

kimjoin2 7달전 [-]

왜... 왜 SKT-T1 으로 읽히는거지