29P by haebom 2일전 | ★ favorite | 댓글 8개

OpenAI가 GPT-OSS 모델 시리즈(gpt-oss-120b / gpt-oss-20b)를 Apache 2.0 라이선스로 전격 공개했습니다. GPT-2 이후 6년 만에 선보이는 오픈 가중치 모델이며, 성능과 효율 모두에서 시장 판도를 바꿀 잠재력을 지니고 있습니다.

🧠 핵심 특징

  • 20B 모델: Mixture of Experts(MoE) 구조
     • 128 전문가 중 4개 활성화 → 성능 유지하며 추론 비용 절감
     • FlashAttention, 128k 토큰 지원, YaRN 포함
  • 20B 모델: 16GB GPU 환경에서도 실행 가능 (Apple Silicon 포함)

📊 주요 벤치마크 성능 (GPT-OSS-120B 기준)

  • MMLU: 90.0% (o4-mini와 유사)
  • AIME 수학: 97.9% (수학+툴 최강 수준)
  • Codeforces Elo: 2622 (코딩 실력도 상위권)
  • HealthBench: GPT-4o 대비 우수 성능
  • MMMLU (14개 언어): 81.3% → 다국어 추론도 강력

💡 실용성 & 생태계

  • 단일 H100 80GB GPU에서 120B 모델 실행 가능
  • 16GB 환경에서도 20B 모델 실시간 실행
  • HuggingFace, vLLM, Ollama 등과 즉시 호환 가능

🔐 안전 & 책임

  • RL 기반 추론 정합성 강화
  • Deliberative Alignment 도입
  • 의도적 악용에도 고위험 출력을 생성하지 않음

당분간 ClosedAI라는 놀림은 피할 수 있을 듯. 잠깐 테스트 해봤는데 한국어도 무척 잘합니다.

https://huggingface.co/openai/gpt-oss-120b

120b 모델도 simpleqa 점수가 0.168이네요

vllm으로 서빙해보려 했는데 Flash Attention3 기반이라 Hopper만 지원하네요 ㅠㅠㅠㅠ

저도 그래서 ollama로…

퇴물 다 된 A100...

관련한 해커뉴스 댓글은 OpenAI, 대규모 오픈 웨이트 언어 모델 공개 글을 참고하세요.
성능에 대한 다양한 평가를 볼 수 있습니다.

내 컴퓨터가 느린걸 알고 싶을 때... 같은 프롬프트로 초를 직접 재서 테스트해보면 어떨까 합니다. ^^; 간단한 기록 구글스프레드시트 라도 하나 열어두고 싶네요 (순수한 기록의 재미로)

MXFP4 양자화를 통해 Ollama에서는 16GB 메모리(VRAM) 시스템에서도 실행할 수 있다고 합니다(gpt-oss:20b): https://ollama.com/blog/gpt-oss

더 큰 모델을 실행하고 싶은 분들은 이번에 출시된 월 $20의 ollama turbo를 사용할 수 있습니다: https://ollama.com/turbo