15P by xguru 1일전 | ★ favorite | 댓글 1개
  • Sky-T1-32B-Preview는 o1-preview와 비슷한 수준의 성능을 발휘하는 추론 및 코딩 모델로 $450(65만원)의 적은 비용만으로 훈련됨
  • 모든 코드가 오픈소스로 제공되어 누구나 재현 및 개선 가능
    • o1 및 Gemini 2.0과 같은 고성능 추론 모델은 복잡한 작업을 해결할 수 있지만, 기술 세부 사항과 모델 가중치가 비공개로 유지되어 있음

완전한 오픈소스: 함께 발전하기

만드는 방법(Recipes)

데이터 준비 과정

  • QwQ-32B-Preview 모델을 사용하여 데이터를 생성하고, 다양한 도메인을 아우르는 데이터 혼합을 구성
  • 재구성 및 포맷 개선:
    • QwQ 데이터를 GPT-4o-mini로 다시 포맷하여 추론 모델의 학습 효율 향상
    • 재포맷을 통해 코딩 데이터 정확도를 25%에서 90% 이상으로 향상
  • 거절 샘플링:
    • 수학 문제: 정확한 정답과 비교하여 부정확한 샘플 제거
    • 코딩 문제: 데이터셋의 단위 테스트를 실행하여 정답 확인
  • 최종 데이터:
    • 코딩 데이터: APPs 및 TACO 데이터셋에서 5,000개
    • 수학 데이터: NuminaMATH의 AIME, MATH, Olympiads에서 10,000개
    • 기타 데이터: 과학 및 퍼즐 문제 1,000개

훈련 과정

  • 훈련 모델: Qwen2.5-32B-Instruct (추론 기능이 없는 오픈소스 모델)
  • 훈련 환경:
    • 8 H100 GPU 사용, DeepSpeed Zero-3 오프로딩
    • 훈련 시간: 19시간
    • 비용: 약 $450 (Lambda Cloud 기준)
  • Llama-Factory를 사용해 훈련 수행

평가 및 결과 요약

  • Sky-T1-32B-Preview는 다양한 벤치마크에서 경쟁 모델들과 비교해 다음과 같은 성능을 보여줌:
    • Math500: Sky-T1이 82.4%로, o1-preview(81.4%)와 거의 동등하며 Qwen-2.5(76.2%)를 크게 앞섬
    • AIME2024: Sky-T1은 43.3%로 o1-preview(40.0%)보다 높고, Qwen-2.5(16.7%)에 비해 월등히 우수
    • LiveCodeBench (Easy): Sky-T1은 86.3%로 Qwen-2.5(84.6%)와 비슷하며, o1-preview(92.9%)와의 격차는 적음
    • LiveCodeBench (Medium): Sky-T1은 56.8%로, o1-preview(54.9%)보다 높고 Qwen-2.5(40.8%)에 비해 크게 앞섬
    • LiveCodeBench (Hard): Sky-T1은 17.9%로 o1-preview(16.3%)를 약간 능가하며, Qwen-2.5(9.8%)와는 큰 차이를 보임
    • GPQA-Diamond: Sky-T1은 56.8%로 QwQ(52.5%)보다 약간 앞서지만, o1-preview(75.2%)보다는 낮은 성능
  • Sky-T1-32B-Preview는 수학 및 코딩 두 분야에서 강력한 성능을 보이며, 특히 중간 난이도의 코딩 작업에서 우위를 점함
  • 수학 관련 벤치마크에서도 상위권에 속하며, 전반적으로 효율적이고 강력한 모델임을 입증함.

주요 발견

  • 모델 크기의 중요성:
    • 7B 및 14B 크기의 모델로는 제한적인 개선만 확인
    • 32B 모델이 성능과 결과의 일관성 면에서 월등히 우수
  • 데이터 혼합의 중요성:
    • 단일 도메인 데이터로 훈련 시 성능이 저하될 수 있음
    • 수학 및 코딩 데이터를 균형 있게 혼합하여 두 도메인에서 우수한 성능 달성

향후 계획

  • 효율성을 유지하면서 높은 추론 성능을 발휘하는 모델 개발에 주력
  • 테스트 시간 효율성과 정확성을 향상시키는 고급 기술 연구
  • 커뮤니티와의 협력을 통해 더 발전된 모델 개발 목표

왜... 왜 SKT-T1 으로 읽히는거지