OpenAI, 대규모 오픈 웨이트 언어 모델 공개

(openai.com)

7P by GN⁺ 3달전 | ★ favorite | 댓글 1개

OpenAI가 최초로 대규모 오픈 웨이트 언어 모델(gpt-oss) 을 공개함
gpt-oss-120b와 gpt-oss-20b 두 가지 모델이 제공되며, 강력한 성능과 다양한 디바이스 지원을 강조
Apache 2.0 라이선스로 상업적 이용 및 맞춤화, 자유로운 배포가 가능함
안전성을 위한 훈련 및 외부 전문가 리뷰, 포괄적 안전 테스트 절차를 도입
Hugging Face, GitHub 등에서 모델을 직접 다운로드 및 사용 가능하며, 파인튜닝·배포·맞춤화 관련 리소스와 Playground도 제공

OpenAI의 오픈 모델

OpenAI는 모든 사용 사례에 맞춤 설정이 가능하고, 어디서나 실행할 수 있는 대규모 오픈 웨이트 추론 모델(gpt-oss)을 공개함
Hugging Face 및 GitHub에서 모델 파일을 직접 다운로드할 수 있으며, 웹 기반 Playground를 통해 데모도 체험 가능함
Apache 2.0 라이선스로 배포되어, 카피레프트나 특허 침해 우려 없이 자유롭게 상업적 활용, 맞춤화, 배포 가능함

gpt-oss-120b: 데이터센터, 고성능 데스크탑 및 노트북용 대형 모델
gpt-oss-20b: 대부분의 데스크탑 및 노트북에서 구동 가능한 중형 모델

주요 특징

에이전트 작업 최적화
- 도구 사용 및 지침 준수가 강점이며, 웹 검색·Python 코드 실행 등 에이전트 관련 활용에 적합함
맞춤화 및 파인튜닝
- reasoning_effort(추론 난이도) 등 하이퍼파라미터 조절 가능
- 전체 파라미터 파인튜닝을 통한 고급 맞춤화 지원
생각의 흐름(Chain-of-Thought) 노출
- 모델의 추론 과정 전개(생각의 흐름) 를 모두 볼 수 있어, 디버깅과 신뢰도 평가가 쉬움
Playground 제공
- 개발자와 연구자 누구나 브라우저에서 모델 성능을 체험할 수 있는 Playground 지원

모델 성능

gpt-oss-120b와 gpt-oss-20b는 OpenAI의 상업 모델(OpenAI o3, o4-mini)과 여러 주요 벤치마크에서 성능이 직접 비교됨
각 모델의 추론·지식, 경쟁 수학 등 다양한 영역에서의 성적이 구체적으로 공개됨
일부 항목에서는 OpenAI 상업 모델과 근접하거나 특정 테스트에서는 뛰어난 결과를 보임

주요 벤치마크 성능 상세

추론 및 지식
- MMLU(Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → 대형 상업 모델에는 다소 못 미치지만, 오픈 모델 기준으로 매우 우수한 종합 추론 성능을 보임
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → 오픈 모델임에도 상업 모델과 거의 비슷한 고급 지식 기반 질의 응답 성능을 달성함
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → 고난이도 평가에서는 상업 모델에 비해 낮은 편이지만, 20b와 o4-mini는 거의 유사한 결과임
경쟁 수학(AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → 2024년 버전 기준으로는 오히려 상업 모델보다 높은 점수를 기록함
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → 수학 분야에서는 OpenAI의 상업 모델을 능가하는 수치도 보임
종합 해석
- gpt-oss 시리즈는 특히 수학, 논리, 지식 분야에서 강력한 성능을 입증함
- 상업 모델과의 격차가 크지 않으며, 실제 서비스나 엔지니어링 응용에도 활용 가능성이 높음
- 대형 오픈 모델로서 연구·개발, 에이전트, 맞춤화 환경에서 충분히 경쟁력 있는 선택지임

안전성 및 테스트

모든 모델에 대해 엄격한 안전 훈련과 평가가 적용됨
OpenAI의 준비성 프레임워크에 따라, 악의적 파인튜닝에 대한 내성도 별도로 테스트함
외부 안전 전문가와 협력하여, 오픈 모델의 안전 표준을 마련함

Hugging Face와 GitHub에서 모델 다운로드 및 사용 가능

▲

GN⁺ 3달전 [-]

Hacker News 의견

핵심을 짚지 못하는 것 같음
gpt-oss:20b는 MMLU 기준 상위 10위 모델이고, Gemini-2.5-Pro 바로 뒤임
작년산 Macbook Air M3에서 직접 돌림
노트북과 Pixel 9 Pro 폰에서 다양한 로컬 모델 실험 중인데, 이런 수준에 곧 도달하리라 생각했지만 이미 오늘 이룬 상황임
최신성의 모델을 노트북에서 전기요금 정도 비용(거의 무료)으로 돌릴 수 있음
월 200달러 구독료도, 호수 물도 필요 없어짐
정말 놀라움
- 20b 모델을 직접 돌려봤지만 라벨만 바꾼 강 건너기 문제조차 해결하지 못했음
  SOTA와는 거리가 멀고, QwQ-32b 같은 일부 로컬 모델보다도 못함
- 로컬 AI를 가장 많이 쓸 집단이 누군지 계속 고민 중임
  하드웨어는 있지만 유료 모델을 피하려는 학생?
  아니면 가격에 민감해서 무료 코딩을 원하는 개발자?
  개인적으론 로컬 모델이 이미지에서 데이터 추출도 제대로 못하고 헛소리를 많이 함(Qwen 2.5 VI의 경우)
  로컬/소형 모델의 품질과 기기 성능이 계속 향상되길 바람
  솔직히 "할 수 있으니까 하는" 기분으로 쓰고 있음
  맥 스튜디오를 여러 대 엮거나 좋은 그래픽카드까지 사가며 이런걸 해야 할 진짜 이유가 뭔지 궁금함
  exo 같은 분산 컴퓨트 툴도 아이디어는 멋진데, 정말 그렇게까지 해야만 하는 긴급한 케이스가 얼만큼 있는지 궁금함
- Jevon's Paradox(자원이 절약되면 오히려 더 많이 쓰게 되는 역설)를 받아들이고, 결국 냉장고 에이전트가 자가의식을 시뮬레이션 해서 다시 호수를 마르게 할 때까지 활용이 폭발할 거라는 예감임
- 최신 오픈 웨이트 모델에 대해 얼마나 알고 있는지 궁금함
  몇 시간 만져보니 Qwen3-30B-A3B에 비하면 한참 부족했음
  특히 세계 지식이 현저히 부족함
- 사실 '호수 물을 다 쓰는' 건 추론(inference)이 아니라 트레이닝임
모델 카드에 관심 있는 사람들을 위해 공유함 PDF 링크
소개된 모델 구조와 Deepseek, Qwen, GLM, Kimi 같은 리딩 오픈웨이트 모델들을 비교
기술적으로 보면 그냥 "그렇구나"라는 느낌임
- 두 모델 모두 general Grouped-Query Attention 구조(쿼리헤드 64개, KV 헤드 8개) 사용
  GPT3 때의 오래된 최적화(밴디드 윈도우 spars, 128 토큰)와 dense attention 패턴을 교차로 적용
  RoPE + YaRN 조합으로 131K 컨텍스트 윈도우 사용
  Deepseek의 Multi-head Latent Attention이나 그 외 다양한 GQA 발전점들은 미적용
- 두 모델 모두 MoE 트랜스포머임
  120B(정확히 116.8B, 액티브 5.1B) 모델이 128개의 expert를 top-4 routing으로 운영
  Gated SwiGLU activation이 특별하게 언급되는데, Deepseek의 shared/routed expert 아키텍처, Qwen의 부하 분산 전략 등은 빠져 있음
- 가장 흥미로운 건 그들의 양자화 방식
  전체 파라미터의 90% 이상을 4.25비트/파라미터(MXFP4 포맷)로 양자화해서 120B 모델을 단일 80GB GPU에 적재
  그래도 Unsloth는 1.58비트 양자화도 이미 이뤄냄
  종합적으로, 에이전트 행동과 추론을 위한 트레이닝은 분명 뛰어나지만, 기술적 진보는 "아직 속에 아껴두고 있는" 느낌임
- 여기서 비밀 소스는 아마도 distillation일 거라 추측함
  인터넷 데이터 대신 o3 등 SOTA 모델의 프롬프트 출력으로 만든 고품질 synthetic 데이터셋을 사전학습으로 활용할 때 작은 모델 성능이 극대화됨이 이미 연구에서 밝혀졌음
  RL을 소형모델에 후처리하는 것보다 훨씬 효율적임(소형 모델은 baseline이 낮아 RL이 비효율적임)
- OpenAI는 attention 구조 외의 부분에서 진짜 기술적 진보가 있다는 식으로도 볼 수 있음
  구조에서는 정말 "비밀소스 없다, 너희가 미드/포스트 트레이닝 못했다" 혹은 그렇게 믿게 하고 싶은 듯함
  모델은 상당히 sparsity가 높은 32:1임
- MXFP4 릴리스를 일종의 선물로 봄
  그들의 대규모 비용 최적화에서 나온 결과물이라 open source 진영에선 강점
  Unsloth의 1.58비트 quant도 놀랍지만, full quant 대비 손해가 명확해서 대부분의 LLM 활용에서는 정확도 우선
  실제 프로덕션에서 frontier 모델을 reduced quant로 돌리는 회사는 별로 없음
  OpenAI가 prod에서 이걸 적용한다면 상당히 흥미로운 시도임
- 비슷한 분석은 github 레포에서도 가능함
- attention sink(특수 토큰에 주의를 모으는)도 적용됨
  단, 별도 토큰이 아니라 attention softmax를 위한 추가 학습 로짓으로 구현됨
초기 인상 정리, 몇 시간 걸려 남김 상세후기 링크
TLDR: OpenAI가 오픈웨이트 최고 모델 타이틀을 중국 AI랩에서 다시 가져온 듯함
독립 벤치마크가 어떻게 나올지 기대됨
20B 모델이 Mac 노트북에서 램 15GB 미만으로 돌아감
- streamlit 대시보드를 MACD, RSI, MA(200) 지표로 만들어봤음.
  qwen3-coder-30b 4bit mlx는 최신데이터까지 훌륭히 처리, 완벽하게 동작하는 대시보드 생성
  gpt-oss-20b mxfp4는 datetime import가 빠져있었고, 고쳐도 시작 날짜가 2020년 8월에 멈추고 데이터가 없음
  date 조정 후에도 업데이트 함수에서 에러 발생함
- 맥북에서 모델을 쓸 때 컨텍스트 윈도우를 너무 짧게 써야 해서 실용성이 떨어졌는데
  그 부분을 어떻게 해결했는지 궁금함
- 툴콜(tool calling) 기능이 얼마나 잘 동작하는지 개인적으로 궁금함
  몇 시간 돌려도 잘 안 됐음
  그래도 기대할 만한 모델임
- 20B 모델이 램 15GB도 안 쓰니, 나도 곧 직접 돌려볼 계획임
  TPS(초당 토큰 생성 수)와 프로세서 정보 궁금함
o3급 모델을 24GB Mac Mini에 돌릴 수 있는 시대가 도래했음
불과 얼마 전만 해도 이런 최신 모델을 로컬이나 모바일에서 돌리는 건 5년 뒤 임무 같았는데, 이제 다음 폰 세대에 가능해질 듯함
- 하드웨어 제약이 심해도 Qwen 같은 모델은 상당한 성능을 보여줌
  앞으로 새 오픈 소스 모델들이 어떻게 비교될지 벤치마크 결과가 기대됨
- Llama 공개 당시의 안전성 논란이 기억남
  이제 96GB (V)RAM 맥북에서 120B 파라미터 프런티어 모델을 돌릴 수 있음
  MLX quant 받으면 GLM-4.5-air와 비교해볼 생각이 설렘
- 솔직히 이 모델에 기대를 엄청 했는데, localllama에서 평가한 결과
  120B 모델이 코딩 측면에선 qwen 3 coder, glm45 air, grok 3에 미치지 못했음
  reddit 토론
- Mac Mini에서 (quantized) 미디엄 사이즈 모델을 실제로 돌렸을 때
  응답 속도가 5토큰/초인지, 아니면 진짜로 쓸만한 수준인지 궁금함
- 요즘 로컬 모델이 웹 브라우징까지 하도록 하는 가장 쉬운 방법이 뭔지 궁금함
장기적으로 오픈 모델이 승리한다고 봄
Anthropic도 OSS 모델로 연구 수행, 중국은 오픈모델을 빠르게 반복 발전시킴
미국 진영도 N-1(한 세대 전) 모델은 1~3 세대는 계속 오픈웨이트로 풀 거라 예측
최신 세대 모델을 OSS로 풀긴 너무 비용 높음
정부 지원이나 Stargate의 전력혁신 없이는 한계
N-1 모델은 가치 하락 속도가 엄청 빠르니, OSS로 배포해 특화·응용사례를 흡수하는 쪽이 장기적으로 가치가 있음
시장점유율 상실 등 위험도 있으나, 공개된 연구 결과들을 집약하면 다음 세대 개발 속도를 크게 높일 여지
앞으로는 엄청나게 많은 소형 OSS 모델이 나오고
OSS 릴리즈를 중심으로 로컬에서 발전시켜 작은 기기에서 잘 돌아가는 특화모델이 대거 등장할 전망임
에이전트 중심 미래에선 도메인별로 특화·증류된 모델들이 쏟아질 것
모두가 AGI/SGI로 달려가고 있고, 그 과정에서의 모델들은 시장점유율 확보와 데이터 활용을 위한 중간 단계임
AGI/SGI가 실현되면 그 진짜 가치는 과학, 엔지니어링, 전 분야의 혁신에 있음
Anthropic 연구에서 Qwen, Llama 등의 OSS 모델을 활용함
- Anthropic이 꼭 오픈모델로만 실험해야 하는 건 아님
  그저 후속 연구자가 재현 가능하게끔 OSS로 결과를 남기는 것뿐임
- "open models가 결국 승리"라는 말엔 전제조건이 있음
  승리의 정의부터 어려움
  만약 그렇지 않으려면
  - OSS가 경쟁자 속도를 키울 수도
  - OSS가 본인 R&D에 아무 도움 안 될 수도
  - OSS가 용낸 전 세계적인 '신제품 경쟁'으로 자원낭비 유발
  - OSS가 기업 비즈니스모델을 해침
  - 악용(딥페이크, 보안, 바이오테러, 통제불능 AGI 등) 리스크
    참고: What failure looks like, AGI Manhattan Project? Max Tegmark의 기고
- 산업이 견고한 파운데이션 모델 위에 툴, 데이터베이스, 프로세스를 꽂아서 활용하는 방향으로 가는 것 같음
  그런 의미에서 OSS 모델이 충분히 시장을 잡을 수도 있다고 봄
  하지만 수많은 특화 모델들까지 따로 학습하고 관리하는 게 어떤 실질적 가치를 낼지는 잘 모르겠음
- AGI/SGI 도달이 단일 사건으로 "도달"하는 과정은 아닐 것
  성능이 계속 조금씩 좋아질 뿐
  추론비용이 충분히 저렴해야 진짜 활용이 가능함
  이윤이나 혁신을 목표로 한다면 어떤 방향이 좋은지 궁금함
  Isomorphic Labs 같은 사례가 모델임(이미 존재, 여기에 인력이 집중 중)
- 오픈모델이 정말 장기 승자라면
  프런티어랩 입장에선 "얼마나 빨리, 얼만큼 비밀을 포함해서" OSS로 공개해야 합리적인지 고민이 남음
  실무·운영·투자 동기가 다르고, 국가나 인류 전체와는 방향이 어긋남
파이썬에서 모델 추론은 Rust로 작성된 harmony[1]를 활용, 토큰화는 tiktoken[2], Codex[3]도 Rust로 작성됨
OpenAI는 추론 파이프라인에서 Rust 채택을 늘리고 있음
harmony, tiktoken, codex
- Rust를 주로 사용하는 엔지니어로서 이 흐름이 매우 반가움
- 스택에서 파이썬이 줄어드는 건 긍정적임
며칠 내로 최고의 모델이 공개된다는 뜻인가?
전략적 관점에서 이걸 공개하는 건 곧 더 혁신적인 발표가 나올 조짐임
- 바로 공개 발표가 없어도 현명한 전략임
  Qwen 같은 고성능 오픈웨이트 모델의 압박이 크기 때문
  그레이스에 없다 보면 전체 분야에서 뒤처질 수 있음
  라이선스, 기술지원, 에이전트, 브랜드 인지도, 시장 점유 등 미래 기회도 큼
  이런 모델을 좋게 쓰면, 더 큰 모델에서 OpenAI를 더 쉽게 찾게 됨
- 목요일 공개설
  GPT-5 공개일 베팅
- GPT-5 이번 목요일 공개
- 공개가 아니면 기존 유료상품의 가치가 줄어듦
  다만, 오픈모델 공개가 늦어 손해볼 정도로 상업 모델에 위협이 된 적은 아직 없다고 판단
- 최근 1주일 전후로 이미 여러 징조상 GPT-5 imminent라 확신하고 있었음
o3급 퍼포먼스에 근접한 20B 모델을 보는 것 자체가 신세계임
1년 전만 해도 이런 소형모델이 이런 지능을 가지는 건 불가능했다 여겼음
개인적으로 더 설레는 건, 천억 파라미터를 돌려 만든 모델을 수십억 파라미터로 증류해서 '매직'을 별 손실 없이 전이시키는 것임
예를 들어 Claude 4 Opus급 지능을 10B 모델에 담아 2,000 토큰/초 속도로 로컬에서 수행하는 상상을 해보면, 소프트웨어 개발 방식이 완전히 바뀔 것임
- 사실 20B 모델이 아니라 MoE라 액티브 파라미터는 3.6B임
  성능도 실제로 o3급은 아님
  메트릭은 항상 현실 괴리가 있으니 직접 실험해봐야 품질을 확인할 수 있음
- 10B x 2,000 t/s는 2만 GB/s 메모리 대역폭 필요
  Apple 하드웨어는 1,000 GB/s 정도가 한계임
약간 다른 얘기지만 Ollama가 정말 멋지다고 생각함
모델 찾기 2초, 다운로드 1분, 바로 사용 가능
팀에게 kudos!
- 사실 Ollama는 OpenAI의 지원을 받아 미리 개발되어 있음
  Ollama 공식 블로그 참고
- LM Studio도 똑같이 간편함
  진짜 핵심은 llama.cpp와 배포의 경우 HuggingFace 쪽이 다 해줌
- Ollama가 닫힌 소스로 전환한다는 소식을 본 적 있음
  관련 reddit 토론글
gpt-oss:20b를 얇은 proxy와 Ollama로 claude code에 로컬연동 성공
재미있지만 prefill 때문에 속도가 너무 느려서 실제론 쓸 수가 없음
툴 사용 한 번당 2~3분, 10~20회면 30~60분 소요
server.py(1,000줄)에 도구정의+claude 컨텍스트 3만 토큰 정도, 입력파일 읽으면 5만 토큰까지 늘어남
최적화 여지는 분명히 있음
Ollama가 /v1/completions 호출 사이에 kv-cache를 지원하는지 모르겠음, 있다면 속도에 도움 될 것 같음
- Ollama는 잘 모르겠지만, llama-server에는 transparent kv cache가 있음
  다음처럼 실행
```
llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
```
  Web UI는 localhost:8080 (OpenAI 호환 API 제공)

답변달기

OpenAI, 대규모 오픈 웨이트 언어 모델 공개

OpenAI의 오픈 모델

주요 특징

에이전트 작업 최적화

맞춤화 및 파인튜닝

생각의 흐름(Chain-of-Thought) 노출

Playground 제공

모델 성능

주요 벤치마크 성능 상세

추론 및 지식

경쟁 수학(AIME)

종합 해석

안전성 및 테스트

Hacker News 의견