GPT-OSS vs. Qwen3 및 GPT-2 이후 LLM 아키텍처 발전 상세 비교

(magazine.sebastianraschka.com)

27P by GN⁺ 2달전 | ★ favorite | 댓글 1개

OpenAI가 gpt-oss-20b/120b 모델을 오픈 가중치로 공개함에 따라 2019년 GPT-2 이후 처음으로 OpenAI의 대형 공개 가중치 LLM이 등장함
gpt-oss 모델은 GPT-2와 비교해 Dropout, Absolute Position Embedding, GELU 등을 효율적인 현대 기법인 RoPE, SwiGLU, RMSNorm 등으로 대체하며 발전함
Mixture-of-Experts(모듈형 전문가 구조), Sliding Window Attention, MXFP4 양자화 등의 적용으로 성능 효율뿐 아니라 단일 GPU 실행 환경을 크게 개선함
Qwen3와의 비교에서 아키텍처 깊이/넓이, 전문가 수, 주의 편향, 오픈소스 라이선스 등 다양한 차별점이 존재함을 확인함
gpt-oss-20b는 최신 하드웨어에 맞춘 경량화와 reasoning effort 조정 기능으로 실제 활용성과 연구 확장성 모두 확보함

개요 및 주요 혁신

OpenAI는 gpt-oss-20b/120b를 2019년 GPT-2 이후 처음으로 오픈 가중치로 공개함
- 일반 사용자 GPU(최대 16GB RAM)에서 20B, H100 80GB에서 120B를 실행 가능하게 함
- MXFP4 최적화로 단일 GPU 실행, 소비자 접근성 확대

GPT-2 → gpt-oss 주요 아키텍처 변화

Dropout 제거

GPT-2에는 Dropout이 포함됐으나 대량 데이터 단일 epoch 학습 환경에선 오히려 성능 저하가 확인됨
최근 연구 결과에서도 Dropout 미적용이 LLM의 다운스트림 작업에서 더 뛰어난 성능을 보임

RoPE(회전 위치 임베딩) 채택

기존 절대 위치 임베딩 대신 RoPE(Rotary Position Embedding) 가 주류로 자리 잡음
RoPE는 쿼리/키 벡터의 각도를 위치에 따라 회전시켜 더 유연하고 일반화된 위치 정보를 제공함

SwiGLU 활성화 함수와 GLU 도입

GEGLU/SwiGLU 등 GLU 방식 도입으로 기존 2-layer FFN보다 적은 파라미터로 더 우수한 표현 능력을 발휘함
Swish는 연산적으로도 GELU 대비 효율적

Mixture-of-Experts(MoE) 적용

단일 FFN 대신 다중 전문가(Expert) 네트워크를 활용해 매 토큰 생성 시 일부 전문가만 활성화
모델 파라미터 수를 급격히 늘리면서도 추론 효율성(희소성) 유지, 학습 용량 증대

Grouped Query Attention(GQA) 도입

기존 Multi-Head Attention 대비 키/값 공유로 메모리 및 연산량 절감 효과
성능 손실 없이 효율성 개선, 대규모 LLM에서 표준적 적용 추세

Sliding Window Attention 활용

일부 레이어마다 전체 문맥 대신 최근 128토큰 한정 Sliding Window로 국소 주의 계산, 메모리 사용량 최소화
성능 저하 없이 빠른 추론, 대규모 컨텍스트 지원용

RMSNorm 채택

LayerNorm 대신 RMSNorm 적용으로 연산 효율 증대
LayerNorm의 평균/분산 계산 대신 RMS(평균제곱근)를 적용, GPU 연산 부담 감소

gpt-oss와 Qwen3 비교

규모/구조 차이

Qwen3은 더 깊은(48개 Transformer 블록) 구조이나, gpt-oss는 더 넓은(emb dimension, head 수 증가) 구조
깊은 모델이 더 유연하지만 학습 어려움, 넓은 모델이 추론 병렬화에 유리(Gemma 2 논문, 9B 모델 기준 넓은 쪽이 소폭 우세)

MoE 구조 차이

gpt-oss-20b: 32명 대형 전문가, 4명만 활성화
Qwen3: 다수 소형 전문가, 8명 활성화
최신 흐름은 더 많은 소형 전문가 구성이 효과적이라는 방향이나 gpt-oss는 대형-소수 구조 고수 (20B, 120B에서는 전문가 및 블록 수만 조정)

Attention Bias와 Sinks

gpt-oss는 attention에 bias 유닛 활용 (GPT-2 시절 이후 보기 드문 방식)
- 하지만 key-proj에는 효과 미미함이 최근 연구에서 밝혀짐
주의 sink는 시퀀스 시작위치에 항상 attend되는 특수 토큰 개념이나, gpt-oss에서는 입력 토큰에 변형 없이 Learned bias logit 형태로 각 head에 추가 적용

라이선스 및 공개 범위

Apache 2.0 오픈소스 라이선스로 상업적 활용/파생 모델 구축 자유
단, 진정한 의미의 오픈소스(학습 코드, 데이터 세트 공개)는 아님(‘open weight’ 모델임)

기타 세부 사항 및 실제 운용

훈련/최적화

gpt-oss는 2.1M H100-hours 컴퓨팅 리소스로 훈련
영어 중심, STEM과 코딩, 일반 지식 텍스트에 집중
사전학습+지도 미세학습(Instruction), RL 기반 reasoning 단계 등 최신 기법 적용

Reasoning Effort 조절

System prompt를 통해 reasoning effort(저/중/고)를 설정해 답변 길이·정확도를 자동 조정
단순 작업은 저효율로 빠르게, 복잡한 reasoning이 필요하면 높게 설정 가능

MXFP4 양자화로 단일 GPU 지원

MXFP4 포맷 활용으로 20B도 16GB VRAM(최신 GPU 필수)에서 구동 가능
120B는 H100 기준 80GB 메모리면 단일 GPU에서 실현 가능, 분산 처리 없고 구동 간편

벤치마크 및 실 사용성

gpt-oss는 학습 초점이 reasoning에 치중, 일부 범용 지식 질문에는 환각(hallucination) 경향
사용성 면에서는 현존 오픈 모델 중 상위, tool integration과 조합 시 실용성 강화 예정
실제 사용에서 정확도와 reasoning의 균형, 추후 타 오픈모델과의 비교 필요

GPT-5와의 비교

gpt-oss-120b는 OpenAI 상용 모델(GPT-5)과 벤치마크 기준 근접 성능을 보임
현실 환경에서의 우위는 더 지켜봐야 하나, 오픈 가중치로 제공되는 최신 LLM 중 강력한 대안임
벤치마크만으로 실전 경쟁력 완전히 설명하기엔 한계, 향후 외부 비교 및 연구에 큰 기회 제공

요약

gpt-oss 시리즈의 등장은 대형 오픈 가중치 LLM 분야의 새로운 기준 제시, 최신 LLM들이 도입한 혁신적 아키텍처들이 실제로 어떻게 구현·적용됐는지 상세히 비교, 분석됨
Quen3, GPT-5 등 다른 최신 모델과의 차별점과 추세를 파악할 수 있어, 실제 적용/연구에 유용한 최신 동향 파악 가능

▲

GN⁺ 2달전 [-]

Hacker News 의견

Qwen3가 로컬 테스트에서 훨씬 뛰어남을 확인함. 32B 파라미터 버전에서는 프롬프트를 거의 완벽하게 지키며 결과가 자연스럽게 나옴. 반면 simplebench gpt-oss(120B)는 논리 퍼즐에서 좋지 않은 성능을 보임. 이런 차이는 트레이닝 방식, 모델 차원, 그리고 적은 수의 대형 전문가 vs 많은 수의 소형 전문가 등에서 비롯된다고 생각함
- Qwen3 32B는 모든 파라미터를 항상 사용하는 덴스 모델임. GPT OSS 20B는 일부만 사용하는 스파스 MoE(Expert of Experts) 모델로, 한 번에 약 3.6B만 활용함. 이로 인해 덴스 20B 모델보다 빠르고, 3.6B 모델보다는 똑똑함. 공정한 비교라면 덴스 8B 모델과 비교해야 하고, Qwen Coder 30B A3B 같은 모델도 좋은 비교 지점임
- 내 생각에 이런 차이는 모델 아키텍처보다는 데이터와 트레이닝 파이프라인 영향이 훨씬 크다고 봄. gpt-oss가 Phi 스타일의 합성 데이터셋만을 활용하고, 주로 벤치마크 게임에 집중했다는 이야기가 있는데, 그 증거가 충분히 설득력 있어 보임
- MoE의 기대 성능 공식은 sqrt(활성 헤드 수 * 전체 파라미터 수)임. 예를 들어 sqrt(120*5) ~= 24로, GPT-OSS 120B는 사실 24B 수준의 성능과 훨씬 작은 모델 수준의 속도를 제공함
- qwen3는 느린 편임. 직접 써보니 동작은 하는데 속도가 느리고, 기능이 부족한 느낌임
Sebastian Raschk의 블로그 글들이 보물 같은 정보임. get-oss와 qwen3 모델을 Ollama, LM Studio로 로컬에서 사용하고, 대형 모델은 상용 API를 씀. get-oss는 프롬프트에 많은 컨텍스트 정보를 넘기면 좋은 결과를 주고, qwen3는 그냥 훌륭함. 3년 전까지는 신경망, GAN, RNN, LSTM 등 머신러닝을 실제로 구현할 정도로 잘 이해했었는데, 요즘 LLM은 직접 개발할 정도로 쉽지 않아서 아쉬움. Sebastian Raschk의 책도 보고 있는데, 아마 끝까지 다 못 볼 듯함
- 믿을 수 없을 정도로 빠르게 변화하는 분야에서 Sebastian Raschk가 항상 최신 정보를 간결하게 정리해줘서 정말 도움을 받고 있음
로컬 3090 GPU에서 qwen3 coder instruct 30b-a3b exl3 q6 모델을 돌려서 샘플 페이지도 만들고, 서버 실행, 남아있는 서버 감지, 이를 직접 종료한 후(권한 요청까지 받음), 재실행 후 ip를 자동으로 찾아 브라우저에 띄우는 과정을 해봄. 이제는 더 이상 단순 데모가 아니라 주니어나 인턴에게도 실질적으로 유용한 수준의 도움임
내 경험상 qwen3-coder가 월등히 뛰어남. gpt-oss:20b도 설치해봤지만, 코드 요약을 시키면 qwen3는 몇 초 만에 결과가 나오고 gpt-oss는 5분 넘게 아무 일도 하지 않아서 중단함. 그래서 그냥 qwen3만 씀. 만약 원하는 답을 못 받으면, 검색 엔진이나 Perplexity를 씀. 10GB 3080, Ryzen 3600x, 32GB RAM을 쓰고 있음. Qwen3-coder는 지금까지 써본 것 중 최고임
- Qwen3 coder 480B는 Sonnet 4와 맞먹을 정도로 좋음. 이 덕분에 중국 모델이 미국 기반 모델을 조만간 앞지를 수도 있다는 실감을 처음 가짐(특히 코딩 분야에서)
- gpt-oss 20B는 10GB에 올라가지 않아서 생긴 문제일 가능성이 있음
- 나도 gpt-oss-20b를 간단하게 쓰는데, 짧은 프롬프트(단문)에는 무한 반복에 빠질 때가 있음. llama.cpp로 돌릴 때 반복 패널티 값을 작게 잡으니 그런 문제가 없었음(주로 diff 분석에 하루 몇 번 정도 사용함). 단, 내가 운이 좋은 걸 수도 있음
- 혹시 agentic 방식(여러 번의 질문과 답변을 주고받는 자동화)으로 쓰고 있는지, 아니면 복사해서 “이 코드 짜줘” 식의 단일 입력/출력으로만 쓰는지 궁금함. 최신 공개 모델이 agentic한 코딩에서 얼마나 상용 모델을 따라잡았는지 알고 싶음
요즘 오픈 웨이트 LLM들은 아키텍처가 너무 비슷하고, 혁신이 데이터나 RL 쪽에서만 일어나고 있는 점이 흥미로움. 예전 대형 ML 조직에서는 아키텍처 튜닝이 가장 중요했는데 현실은 달라 보임
- LLM 규모에서는 하이퍼파라미터 튜닝 자체가 불가능하다고 봄. 비용이 너무 커서 여러 아키텍처를 기본 테스트만 하고, 하나를 골라 데이터와 RL로 최적화하는 식임
- 좋은 지적임. LLM 덕분에 리소스만 충분하면 누구나 도전할 수 있게 되었음. 아키텍처가 꽤 조정에 강하고, 충분한 컴퓨트와 데이터를 넣으면 확장 법칙(scaling law)를 어겨도 괜찮은 모델을 만들 수 있음(Llama 3가 과거에 보여줬던 것처럼)
Qwen3 4B 모델을 로컬에서 정말 잘 사용 중임. 온라인 모델은 거의 안 쓰고, 웹 검색도 훨씬 타깃팅이 잘 됨. 완전히 신뢰하지는 않지만 전반적으로 괜찮음. 이런 오픈소스 모델이 로컬 지식 자동화의 판도를 바꿀 거라고 확신함
- Qwen이 직접 더 나은 검색 파라미터를 안내해주는 것인지, 아니면 Qwen이 실제 웹 검색까지 해주는 것인지 궁금함
LM Arena에서 순수 Transformer 기반이 아닌 모델 중 가장 성능이 좋은 모델은 Jamba임(Transformers와 state space 모델의 하이브리드 구조, 96위). Tencent의 hunyuan-turbos도 역시 하이브리드로, 22위임. arxiv 논문 참고
LLM은 보통 아주 거대한 데이터셋을 딱 한 번(단일 에폭)만 학습함. 이는 여러 번 반복 학습(수백 에폭) 전제를 깔고 있던 Dropout 방식과는 다른 환경임
- 이건 잘 알려진 사실임. GPT-3 논문의 Table 2.2를 참고하면 됨
대형 연구실에서 공개하는 모델들이 추가적인 학습을 더 하면 얼마나 발전할 수 있을지 궁금함. 예를 들어 GPT-OSS가 210만 시간 학습했다면, 그걸 두 배로 늘리면 얼마나 개선될 수 있을지 알고 싶음
- GPT-4.5는 사실 더 큰 GPT-5로 기획되어 더 많은 데이터를 학습했을 수도 있음. 하지만 너무 비싸서 대규모 상용화는 못 했고, RL 적용 버전도 못 보게 된 아쉬움 있음
- GPT-5에서 활용된 RL 기반 트레이닝 첨단 기법도 무한정 확장되진 않는다는 점이 이미 드러남
사이트에 접속하면 "연결이 안전하지 않습니다"라는 오류 메시지를 받음. "magazine.sebastianraschka.com 웹사이트가 HSTS를 사용 중이라 지금 방문할 수 없습니다"라고 나옴. 크롬 최신 버전, Ubuntu 환경임

답변달기