GPT-OSS vs. Qwen3 및 GPT-2 이후 LLM 아키텍처 발전 상세 비교
(magazine.sebastianraschka.com)- OpenAI가 gpt-oss-20b/120b 모델을 오픈 가중치로 공개함에 따라 2019년 GPT-2 이후 처음으로 OpenAI의 대형 공개 가중치 LLM이 등장함
- gpt-oss 모델은 GPT-2와 비교해 Dropout, Absolute Position Embedding, GELU 등을 효율적인 현대 기법인 RoPE, SwiGLU, RMSNorm 등으로 대체하며 발전함
- Mixture-of-Experts(모듈형 전문가 구조), Sliding Window Attention, MXFP4 양자화 등의 적용으로 성능 효율뿐 아니라 단일 GPU 실행 환경을 크게 개선함
- Qwen3와의 비교에서 아키텍처 깊이/넓이, 전문가 수, 주의 편향, 오픈소스 라이선스 등 다양한 차별점이 존재함을 확인함
- gpt-oss-20b는 최신 하드웨어에 맞춘 경량화와 reasoning effort 조정 기능으로 실제 활용성과 연구 확장성 모두 확보함
개요 및 주요 혁신
- OpenAI는 gpt-oss-20b/120b를 2019년 GPT-2 이후 처음으로 오픈 가중치로 공개함
- 일반 사용자 GPU(최대 16GB RAM)에서 20B, H100 80GB에서 120B를 실행 가능하게 함
- MXFP4 최적화로 단일 GPU 실행, 소비자 접근성 확대
GPT-2 → gpt-oss 주요 아키텍처 변화
Dropout 제거
- GPT-2에는 Dropout이 포함됐으나 대량 데이터 단일 epoch 학습 환경에선 오히려 성능 저하가 확인됨
- 최근 연구 결과에서도 Dropout 미적용이 LLM의 다운스트림 작업에서 더 뛰어난 성능을 보임
RoPE(회전 위치 임베딩) 채택
- 기존 절대 위치 임베딩 대신 RoPE(Rotary Position Embedding) 가 주류로 자리 잡음
- RoPE는 쿼리/키 벡터의 각도를 위치에 따라 회전시켜 더 유연하고 일반화된 위치 정보를 제공함
SwiGLU 활성화 함수와 GLU 도입
- GEGLU/SwiGLU 등 GLU 방식 도입으로 기존 2-layer FFN보다 적은 파라미터로 더 우수한 표현 능력을 발휘함
- Swish는 연산적으로도 GELU 대비 효율적
Mixture-of-Experts(MoE) 적용
- 단일 FFN 대신 다중 전문가(Expert) 네트워크를 활용해 매 토큰 생성 시 일부 전문가만 활성화
- 모델 파라미터 수를 급격히 늘리면서도 추론 효율성(희소성) 유지, 학습 용량 증대
Grouped Query Attention(GQA) 도입
- 기존 Multi-Head Attention 대비 키/값 공유로 메모리 및 연산량 절감 효과
- 성능 손실 없이 효율성 개선, 대규모 LLM에서 표준적 적용 추세
Sliding Window Attention 활용
- 일부 레이어마다 전체 문맥 대신 최근 128토큰 한정 Sliding Window로 국소 주의 계산, 메모리 사용량 최소화
- 성능 저하 없이 빠른 추론, 대규모 컨텍스트 지원용
RMSNorm 채택
- LayerNorm 대신 RMSNorm 적용으로 연산 효율 증대
- LayerNorm의 평균/분산 계산 대신 RMS(평균제곱근)를 적용, GPU 연산 부담 감소
gpt-oss와 Qwen3 비교
규모/구조 차이
- Qwen3은 더 깊은(48개 Transformer 블록) 구조이나, gpt-oss는 더 넓은(emb dimension, head 수 증가) 구조
- 깊은 모델이 더 유연하지만 학습 어려움, 넓은 모델이 추론 병렬화에 유리(Gemma 2 논문, 9B 모델 기준 넓은 쪽이 소폭 우세)
MoE 구조 차이
- gpt-oss-20b: 32명 대형 전문가, 4명만 활성화
- Qwen3: 다수 소형 전문가, 8명 활성화
- 최신 흐름은 더 많은 소형 전문가 구성이 효과적이라는 방향이나 gpt-oss는 대형-소수 구조 고수 (20B, 120B에서는 전문가 및 블록 수만 조정)
Attention Bias와 Sinks
- gpt-oss는 attention에 bias 유닛 활용 (GPT-2 시절 이후 보기 드문 방식)
- 하지만 key-proj에는 효과 미미함이 최근 연구에서 밝혀짐
- 주의 sink는 시퀀스 시작위치에 항상 attend되는 특수 토큰 개념이나, gpt-oss에서는 입력 토큰에 변형 없이 Learned bias logit 형태로 각 head에 추가 적용
라이선스 및 공개 범위
- Apache 2.0 오픈소스 라이선스로 상업적 활용/파생 모델 구축 자유
- 단, 진정한 의미의 오픈소스(학습 코드, 데이터 세트 공개)는 아님(‘open weight’ 모델임)
기타 세부 사항 및 실제 운용
훈련/최적화
- gpt-oss는 2.1M H100-hours 컴퓨팅 리소스로 훈련
- 영어 중심, STEM과 코딩, 일반 지식 텍스트에 집중
- 사전학습+지도 미세학습(Instruction), RL 기반 reasoning 단계 등 최신 기법 적용
Reasoning Effort 조절
- System prompt를 통해 reasoning effort(저/중/고)를 설정해 답변 길이·정확도를 자동 조정
- 단순 작업은 저효율로 빠르게, 복잡한 reasoning이 필요하면 높게 설정 가능
MXFP4 양자화로 단일 GPU 지원
- MXFP4 포맷 활용으로 20B도 16GB VRAM(최신 GPU 필수)에서 구동 가능
- 120B는 H100 기준 80GB 메모리면 단일 GPU에서 실현 가능, 분산 처리 없고 구동 간편
벤치마크 및 실 사용성
- gpt-oss는 학습 초점이 reasoning에 치중, 일부 범용 지식 질문에는 환각(hallucination) 경향
- 사용성 면에서는 현존 오픈 모델 중 상위, tool integration과 조합 시 실용성 강화 예정
- 실제 사용에서 정확도와 reasoning의 균형, 추후 타 오픈모델과의 비교 필요
GPT-5와의 비교
- gpt-oss-120b는 OpenAI 상용 모델(GPT-5)과 벤치마크 기준 근접 성능을 보임
- 현실 환경에서의 우위는 더 지켜봐야 하나, 오픈 가중치로 제공되는 최신 LLM 중 강력한 대안임
- 벤치마크만으로 실전 경쟁력 완전히 설명하기엔 한계, 향후 외부 비교 및 연구에 큰 기회 제공
요약
- gpt-oss 시리즈의 등장은 대형 오픈 가중치 LLM 분야의 새로운 기준 제시, 최신 LLM들이 도입한 혁신적 아키텍처들이 실제로 어떻게 구현·적용됐는지 상세히 비교, 분석됨
- Quen3, GPT-5 등 다른 최신 모델과의 차별점과 추세를 파악할 수 있어, 실제 적용/연구에 유용한 최신 동향 파악 가능
Hacker News 의견
-
Qwen3가 로컬 테스트에서 훨씬 뛰어남을 확인함. 32B 파라미터 버전에서는 프롬프트를 거의 완벽하게 지키며 결과가 자연스럽게 나옴. 반면 simplebench gpt-oss(120B)는 논리 퍼즐에서 좋지 않은 성능을 보임. 이런 차이는 트레이닝 방식, 모델 차원, 그리고 적은 수의 대형 전문가 vs 많은 수의 소형 전문가 등에서 비롯된다고 생각함
- Qwen3 32B는 모든 파라미터를 항상 사용하는 덴스 모델임. GPT OSS 20B는 일부만 사용하는 스파스 MoE(Expert of Experts) 모델로, 한 번에 약 3.6B만 활용함. 이로 인해 덴스 20B 모델보다 빠르고, 3.6B 모델보다는 똑똑함. 공정한 비교라면 덴스 8B 모델과 비교해야 하고, Qwen Coder 30B A3B 같은 모델도 좋은 비교 지점임
- 내 생각에 이런 차이는 모델 아키텍처보다는 데이터와 트레이닝 파이프라인 영향이 훨씬 크다고 봄. gpt-oss가 Phi 스타일의 합성 데이터셋만을 활용하고, 주로 벤치마크 게임에 집중했다는 이야기가 있는데, 그 증거가 충분히 설득력 있어 보임
- MoE의 기대 성능 공식은 sqrt(활성 헤드 수 * 전체 파라미터 수)임. 예를 들어 sqrt(120*5) ~= 24로, GPT-OSS 120B는 사실 24B 수준의 성능과 훨씬 작은 모델 수준의 속도를 제공함
- qwen3는 느린 편임. 직접 써보니 동작은 하는데 속도가 느리고, 기능이 부족한 느낌임
-
Sebastian Raschk의 블로그 글들이 보물 같은 정보임. get-oss와 qwen3 모델을 Ollama, LM Studio로 로컬에서 사용하고, 대형 모델은 상용 API를 씀. get-oss는 프롬프트에 많은 컨텍스트 정보를 넘기면 좋은 결과를 주고, qwen3는 그냥 훌륭함. 3년 전까지는 신경망, GAN, RNN, LSTM 등 머신러닝을 실제로 구현할 정도로 잘 이해했었는데, 요즘 LLM은 직접 개발할 정도로 쉽지 않아서 아쉬움. Sebastian Raschk의 책도 보고 있는데, 아마 끝까지 다 못 볼 듯함
- 믿을 수 없을 정도로 빠르게 변화하는 분야에서 Sebastian Raschk가 항상 최신 정보를 간결하게 정리해줘서 정말 도움을 받고 있음
-
로컬 3090 GPU에서 qwen3 coder instruct 30b-a3b exl3 q6 모델을 돌려서 샘플 페이지도 만들고, 서버 실행, 남아있는 서버 감지, 이를 직접 종료한 후(권한 요청까지 받음), 재실행 후 ip를 자동으로 찾아 브라우저에 띄우는 과정을 해봄. 이제는 더 이상 단순 데모가 아니라 주니어나 인턴에게도 실질적으로 유용한 수준의 도움임
-
내 경험상 qwen3-coder가 월등히 뛰어남. gpt-oss:20b도 설치해봤지만, 코드 요약을 시키면 qwen3는 몇 초 만에 결과가 나오고 gpt-oss는 5분 넘게 아무 일도 하지 않아서 중단함. 그래서 그냥 qwen3만 씀. 만약 원하는 답을 못 받으면, 검색 엔진이나 Perplexity를 씀. 10GB 3080, Ryzen 3600x, 32GB RAM을 쓰고 있음. Qwen3-coder는 지금까지 써본 것 중 최고임
- Qwen3 coder 480B는 Sonnet 4와 맞먹을 정도로 좋음. 이 덕분에 중국 모델이 미국 기반 모델을 조만간 앞지를 수도 있다는 실감을 처음 가짐(특히 코딩 분야에서)
- gpt-oss 20B는 10GB에 올라가지 않아서 생긴 문제일 가능성이 있음
- 나도 gpt-oss-20b를 간단하게 쓰는데, 짧은 프롬프트(단문)에는 무한 반복에 빠질 때가 있음. llama.cpp로 돌릴 때 반복 패널티 값을 작게 잡으니 그런 문제가 없었음(주로 diff 분석에 하루 몇 번 정도 사용함). 단, 내가 운이 좋은 걸 수도 있음
- 혹시 agentic 방식(여러 번의 질문과 답변을 주고받는 자동화)으로 쓰고 있는지, 아니면 복사해서 “이 코드 짜줘” 식의 단일 입력/출력으로만 쓰는지 궁금함. 최신 공개 모델이 agentic한 코딩에서 얼마나 상용 모델을 따라잡았는지 알고 싶음
-
요즘 오픈 웨이트 LLM들은 아키텍처가 너무 비슷하고, 혁신이 데이터나 RL 쪽에서만 일어나고 있는 점이 흥미로움. 예전 대형 ML 조직에서는 아키텍처 튜닝이 가장 중요했는데 현실은 달라 보임
- LLM 규모에서는 하이퍼파라미터 튜닝 자체가 불가능하다고 봄. 비용이 너무 커서 여러 아키텍처를 기본 테스트만 하고, 하나를 골라 데이터와 RL로 최적화하는 식임
- 좋은 지적임. LLM 덕분에 리소스만 충분하면 누구나 도전할 수 있게 되었음. 아키텍처가 꽤 조정에 강하고, 충분한 컴퓨트와 데이터를 넣으면 확장 법칙(scaling law)를 어겨도 괜찮은 모델을 만들 수 있음(Llama 3가 과거에 보여줬던 것처럼)
-
Qwen3 4B 모델을 로컬에서 정말 잘 사용 중임. 온라인 모델은 거의 안 쓰고, 웹 검색도 훨씬 타깃팅이 잘 됨. 완전히 신뢰하지는 않지만 전반적으로 괜찮음. 이런 오픈소스 모델이 로컬 지식 자동화의 판도를 바꿀 거라고 확신함
- Qwen이 직접 더 나은 검색 파라미터를 안내해주는 것인지, 아니면 Qwen이 실제 웹 검색까지 해주는 것인지 궁금함
-
LM Arena에서 순수 Transformer 기반이 아닌 모델 중 가장 성능이 좋은 모델은 Jamba임(Transformers와 state space 모델의 하이브리드 구조, 96위). Tencent의 hunyuan-turbos도 역시 하이브리드로, 22위임. arxiv 논문 참고
-
LLM은 보통 아주 거대한 데이터셋을 딱 한 번(단일 에폭)만 학습함. 이는 여러 번 반복 학습(수백 에폭) 전제를 깔고 있던 Dropout 방식과는 다른 환경임
- 이건 잘 알려진 사실임. GPT-3 논문의 Table 2.2를 참고하면 됨
-
대형 연구실에서 공개하는 모델들이 추가적인 학습을 더 하면 얼마나 발전할 수 있을지 궁금함. 예를 들어 GPT-OSS가 210만 시간 학습했다면, 그걸 두 배로 늘리면 얼마나 개선될 수 있을지 알고 싶음
- GPT-4.5는 사실 더 큰 GPT-5로 기획되어 더 많은 데이터를 학습했을 수도 있음. 하지만 너무 비싸서 대규모 상용화는 못 했고, RL 적용 버전도 못 보게 된 아쉬움 있음
- GPT-5에서 활용된 RL 기반 트레이닝 첨단 기법도 무한정 확장되진 않는다는 점이 이미 드러남
-
사이트에 접속하면 "연결이 안전하지 않습니다"라는 오류 메시지를 받음. "magazine.sebastianraschka.com 웹사이트가 HSTS를 사용 중이라 지금 방문할 수 없습니다"라고 나옴. 크롬 최신 버전, Ubuntu 환경임