- Sky-T1-32B-Preview는 o1-preview와 비슷한 수준의 성능을 발휘하는 추론 및 코딩 모델로 $450(65만원)의 적은 비용만으로 훈련됨
- 모든 코드가 오픈소스로 제공되어 누구나 재현 및 개선 가능
- o1 및 Gemini 2.0과 같은 고성능 추론 모델은 복잡한 작업을 해결할 수 있지만, 기술 세부 사항과 모델 가중치가 비공개로 유지되어 있음
완전한 오픈소스: 함께 발전하기
- Sky-T1-32B-Preview는 모든 세부 정보를 오픈소스화:
만드는 방법(Recipes)
데이터 준비 과정
- QwQ-32B-Preview 모델을 사용하여 데이터를 생성하고, 다양한 도메인을 아우르는 데이터 혼합을 구성
-
재구성 및 포맷 개선:
- QwQ 데이터를 GPT-4o-mini로 다시 포맷하여 추론 모델의 학습 효율 향상
- 재포맷을 통해 코딩 데이터 정확도를 25%에서 90% 이상으로 향상
-
거절 샘플링:
- 수학 문제: 정확한 정답과 비교하여 부정확한 샘플 제거
- 코딩 문제: 데이터셋의 단위 테스트를 실행하여 정답 확인
- 최종 데이터:
- 코딩 데이터: APPs 및 TACO 데이터셋에서 5,000개
- 수학 데이터: NuminaMATH의 AIME, MATH, Olympiads에서 10,000개
- 기타 데이터: 과학 및 퍼즐 문제 1,000개
훈련 과정
-
훈련 모델: Qwen2.5-32B-Instruct (추론 기능이 없는 오픈소스 모델)
-
훈련 환경:
- 8 H100 GPU 사용, DeepSpeed Zero-3 오프로딩
- 훈련 시간: 19시간
- 비용: 약 $450 (Lambda Cloud 기준)
-
Llama-Factory를 사용해 훈련 수행
평가 및 결과 요약
- Sky-T1-32B-Preview는 다양한 벤치마크에서 경쟁 모델들과 비교해 다음과 같은 성능을 보여줌:
-
Math500: Sky-T1이 82.4%로, o1-preview(81.4%)와 거의 동등하며 Qwen-2.5(76.2%)를 크게 앞섬
-
AIME2024: Sky-T1은 43.3%로 o1-preview(40.0%)보다 높고, Qwen-2.5(16.7%)에 비해 월등히 우수
-
LiveCodeBench (Easy): Sky-T1은 86.3%로 Qwen-2.5(84.6%)와 비슷하며, o1-preview(92.9%)와의 격차는 적음
-
LiveCodeBench (Medium): Sky-T1은 56.8%로, o1-preview(54.9%)보다 높고 Qwen-2.5(40.8%)에 비해 크게 앞섬
-
LiveCodeBench (Hard): Sky-T1은 17.9%로 o1-preview(16.3%)를 약간 능가하며, Qwen-2.5(9.8%)와는 큰 차이를 보임
-
GPQA-Diamond: Sky-T1은 56.8%로 QwQ(52.5%)보다 약간 앞서지만, o1-preview(75.2%)보다는 낮은 성능
- Sky-T1-32B-Preview는 수학 및 코딩 두 분야에서 강력한 성능을 보이며, 특히 중간 난이도의 코딩 작업에서 우위를 점함
- 수학 관련 벤치마크에서도 상위권에 속하며, 전반적으로 효율적이고 강력한 모델임을 입증함.
주요 발견
-
모델 크기의 중요성:
- 7B 및 14B 크기의 모델로는 제한적인 개선만 확인
- 32B 모델이 성능과 결과의 일관성 면에서 월등히 우수
-
데이터 혼합의 중요성:
- 단일 도메인 데이터로 훈련 시 성능이 저하될 수 있음
- 수학 및 코딩 데이터를 균형 있게 혼합하여 두 도메인에서 우수한 성능 달성
향후 계획
- 효율성을 유지하면서 높은 추론 성능을 발휘하는 모델 개발에 주력
- 테스트 시간 효율성과 정확성을 향상시키는 고급 기술 연구
- 커뮤니티와의 협력을 통해 더 발전된 모델 개발 목표