# Sky-T1: $450로 o1 preview급의 고성능 추론 모델 훈련하기

> Clean Markdown view of GeekNews topic #18764. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18764](https://news.hada.io/topic?id=18764)
- GeekNews Markdown: [https://news.hada.io/topic/18764.md](https://news.hada.io/topic/18764.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-01-17T09:45:03+09:00
- Updated: 2025-01-17T09:45:03+09:00
- Original source: [novasky-ai.github.io](https://novasky-ai.github.io/posts/sky-t1/)
- Points: 22
- Comments: 1

## Summary

Sky-T1-32B-Preview는 $450의 비용으로 훈련된 고성능 추론 및 코딩 모델로, 모든 세부 정보가 오픈소스로 제공되어 누구나 재현 및 개선이 가능합니다. 이 모델은 다양한 벤치마크에서 경쟁 모델들과 비교해 우수한 성능을 보이며, 특히 중간 난이도의 코딩 작업에서 강점을 나타냅니다. 이제 정말 적은 비용으로도 좋은 모델을 훈련해서 사용하는 시대가 오려나 봅니다.

## Topic Body

- Sky-T1-32B-Preview는 o1-preview와 비슷한 수준의 성능을 발휘하는 추론 및 코딩 모델로 $450(65만원)의 적은 비용만으로 훈련됨  
- 모든 코드가 오픈소스로 제공되어 누구나 재현 및 개선 가능  
  - o1 및 Gemini 2.0과 같은 고성능 추론 모델은 복잡한 작업을 해결할 수 있지만, 기술 세부 사항과 모델 가중치가 비공개로 유지되어 있음  
### 완전한 오픈소스: 함께 발전하기   
- Sky-T1-32B-Preview는 **모든 세부 정보**를 오픈소스화:  
  - [**인프라**](https://github.com/NovaSky-AI/SkyThought): 데이터 구축, 모델 훈련 및 평가를 위한 통합 리포지토리  
  - [**데이터**](https://github.com/NovaSky-AI/SkyThought): 17,000개의 훈련 데이터 제공  
  - [**기술 세부 정보**](https://novasky-ai.github.io/posts/sky-t1): 기술 보고서 및 [wandb 로그](https://api.wandb.ai/links/sky-posttraining-uc-berkeley/wjg3sybl)  
  - [**모델 가중치**](https://huggingface.co/NovaSky-AI): 32B 크기의 모델 가중치  
  
### 만드는 방법(Recipes)  
  
#### 데이터 준비 과정  
- QwQ-32B-Preview 모델을 사용하여 데이터를 생성하고, 다양한 도메인을 아우르는 데이터 혼합을 구성  
- **재구성 및 포맷 개선**:  
  - QwQ 데이터를 GPT-4o-mini로 다시 포맷하여 추론 모델의 학습 효율 향상  
  - 재포맷을 통해 코딩 데이터 정확도를 25%에서 90% 이상으로 향상  
- **거절 샘플링**:  
  - 수학 문제: 정확한 정답과 비교하여 부정확한 샘플 제거  
  - 코딩 문제: 데이터셋의 단위 테스트를 실행하여 정답 확인  
- 최종 데이터:  
  - 코딩 데이터: APPs 및 TACO 데이터셋에서 **5,000개**  
  - 수학 데이터: NuminaMATH의 AIME, MATH, Olympiads에서 **10,000개**  
  - 기타 데이터: 과학 및 퍼즐 문제 **1,000개**  
  
#### 훈련 과정  
  
- **훈련 모델**: Qwen2.5-32B-Instruct (추론 기능이 없는 오픈소스 모델)  
- **훈련 환경**:  
  - 8 H100 GPU 사용, DeepSpeed Zero-3 오프로딩  
  - 훈련 시간: 19시간  
  - 비용: 약 **$450** (Lambda Cloud 기준)  
- [Llama-Factory](https://github.com/hiyouga/LLaMA-Factory)를 사용해 훈련 수행  
  
#### 평가 및 결과 요약  
  
- Sky-T1-32B-Preview는 다양한 벤치마크에서 경쟁 모델들과 비교해 다음과 같은 성능을 보여줌:  
  - **Math500**: Sky-T1이 82.4%로, o1-preview(81.4%)와 거의 동등하며 Qwen-2.5(76.2%)를 크게 앞섬  
  - **AIME2024**: Sky-T1은 43.3%로 o1-preview(40.0%)보다 높고, Qwen-2.5(16.7%)에 비해 월등히 우수  
  - **LiveCodeBench (Easy)**: Sky-T1은 86.3%로 Qwen-2.5(84.6%)와 비슷하며, o1-preview(92.9%)와의 격차는 적음  
  - **LiveCodeBench (Medium)**: Sky-T1은 56.8%로, o1-preview(54.9%)보다 높고 Qwen-2.5(40.8%)에 비해 크게 앞섬  
  - **LiveCodeBench (Hard)**: Sky-T1은 17.9%로 o1-preview(16.3%)를 약간 능가하며, Qwen-2.5(9.8%)와는 큰 차이를 보임  
  - **GPQA-Diamond**: Sky-T1은 56.8%로 QwQ(52.5%)보다 약간 앞서지만, o1-preview(75.2%)보다는 낮은 성능  
- Sky-T1-32B-Preview는 수학 및 코딩 두 분야에서 강력한 성능을 보이며, 특히 중간 난이도의 코딩 작업에서 우위를 점함  
- 수학 관련 벤치마크에서도 상위권에 속하며, 전반적으로 효율적이고 강력한 모델임을 입증함.  
  
### 주요 발견  
  
- **모델 크기의 중요성**:  
  - 7B 및 14B 크기의 모델로는 제한적인 개선만 확인  
  - 32B 모델이 성능과 결과의 일관성 면에서 월등히 우수  
- **데이터 혼합의 중요성**:  
  - 단일 도메인 데이터로 훈련 시 성능이 저하될 수 있음  
  - 수학 및 코딩 데이터를 균형 있게 혼합하여 두 도메인에서 우수한 성능 달성  
  
### 향후 계획  
  
- 효율성을 유지하면서 높은 추론 성능을 발휘하는 모델 개발에 주력  
- 테스트 시간 효율성과 정확성을 향상시키는 고급 기술 연구  
- 커뮤니티와의 협력을 통해 더 발전된 모델 개발 목표

## Comments


### Comment 33546

- Author: kimjoin2
- Created: 2025-01-17T11:43:45+09:00
- Points: 1

왜... 왜 SKT-T1 으로 읽히는거지