# GPT-OSS vs. Qwen3 및 GPT-2 이후 LLM 아키텍처 발전 상세 비교

> Clean Markdown view of GeekNews topic #22449. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22449](https://news.hada.io/topic?id=22449)
- GeekNews Markdown: [https://news.hada.io/topic/22449.md](https://news.hada.io/topic/22449.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-11T10:00:43+09:00
- Updated: 2025-08-11T10:00:43+09:00
- Original source: [magazine.sebastianraschka.com](https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the)
- Points: 27
- Comments: 1

## Summary

글 요약도 참고하시되, 원문의 아키텍처 그림들이 좋으니 꼭 함께 보시기 바랍니다.

## Topic Body

- OpenAI가 **gpt-oss-20b/120b 모델을 오픈 가중치로 공개**함에 따라 2019년 GPT-2 이후 처음으로 OpenAI의 대형 공개 가중치 LLM이 등장함  
- **gpt-oss 모델은 GPT-2와 비교해 Dropout, Absolute Position Embedding, GELU 등을 효율적인 현대 기법**인 RoPE, SwiGLU, RMSNorm 등으로 대체하며 발전함  
- **Mixture-of-Experts(모듈형 전문가 구조), Sliding Window Attention, MXFP4 양자화** 등의 적용으로 성능 효율뿐 아니라 단일 GPU 실행 환경을 크게 개선함  
- **Qwen3와의 비교에서 아키텍처 깊이/넓이, 전문가 수, 주의 편향, 오픈소스 라이선스 등 다양한 차별점**이 존재함을 확인함  
- **gpt-oss-20b는 최신 하드웨어에 맞춘 경량화와 reasoning effort 조정 기능**으로 실제 활용성과 연구 확장성 모두 확보함  
  
---  
  
### 개요 및 주요 혁신  
  
- OpenAI는 **gpt-oss-20b/120b**를 2019년 GPT-2 이후 처음으로 **오픈 가중치로 공개**함  
    - 일반 사용자 GPU(최대 16GB RAM)에서 20B, H100 80GB에서 120B를 실행 가능하게 함  
    - MXFP4 최적화로 단일 GPU 실행, 소비자 접근성 확대  
  
### GPT-2 → gpt-oss 주요 아키텍처 변화  
  
#### Dropout 제거  
- GPT-2에는 **Dropout**이 포함됐으나 대량 데이터 단일 epoch 학습 환경에선 오히려 성능 저하가 확인됨  
- 최근 연구 결과에서도 **Dropout 미적용이 LLM의 다운스트림 작업에서 더 뛰어난 성능**을 보임  
  
#### RoPE(회전 위치 임베딩) 채택  
- 기존 절대 위치 임베딩 대신 **RoPE(Rotary Position Embedding)** 가 주류로 자리 잡음  
- RoPE는 쿼리/키 벡터의 각도를 위치에 따라 회전시켜 **더 유연하고 일반화된 위치 정보**를 제공함  
  
#### SwiGLU 활성화 함수와 GLU 도입  
- **GEGLU/SwiGLU** 등 GLU 방식 도입으로 기존 2-layer FFN보다 적은 파라미터로 더 우수한 표현 능력을 발휘함  
- Swish는 연산적으로도 GELU 대비 효율적  
  
#### Mixture-of-Experts(MoE) 적용  
- **단일 FFN 대신 다중 전문가(Expert) 네트워크**를 활용해 매 토큰 생성 시 일부 전문가만 활성화  
- **모델 파라미터 수를 급격히 늘리면서도 추론 효율성(희소성) 유지**, 학습 용량 증대  
  
#### Grouped Query Attention(GQA) 도입  
- **기존 Multi-Head Attention 대비 키/값 공유로 메모리 및 연산량 절감** 효과  
- 성능 손실 없이 효율성 개선, 대규모 LLM에서 표준적 적용 추세  
  
#### Sliding Window Attention 활용  
- 일부 레이어마다 전체 문맥 대신 **최근 128토큰 한정 Sliding Window**로 국소 주의 계산, 메모리 사용량 최소화  
- 성능 저하 없이 빠른 추론, 대규모 컨텍스트 지원용  
  
#### RMSNorm 채택  
- **LayerNorm 대신 RMSNorm 적용으로 연산 효율 증대**  
- LayerNorm의 평균/분산 계산 대신 RMS(평균제곱근)를 적용, GPU 연산 부담 감소  
  
### gpt-oss와 Qwen3 비교  
  
#### 규모/구조 차이  
- Qwen3은 **더 깊은(48개 Transformer 블록) 구조**이나, gpt-oss는 **더 넓은(emb dimension, head 수 증가) 구조**  
- **깊은 모델이 더 유연하지만 학습 어려움, 넓은 모델이 추론 병렬화에 유리**(Gemma 2 논문, 9B 모델 기준 넓은 쪽이 소폭 우세)  
  
#### MoE 구조 차이  
- gpt-oss-20b: **32명 대형 전문가, 4명만 활성화**  
- Qwen3: 다수 소형 전문가, 8명 활성화  
- 최신 흐름은 **더 많은 소형 전문가 구성이 효과적**이라는 방향이나 gpt-oss는 대형-소수 구조 고수 (20B, 120B에서는 전문가 및 블록 수만 조정)  
  
#### Attention Bias와 Sinks  
- gpt-oss는 attention에 **bias 유닛** 활용 (GPT-2 시절 이후 보기 드문 방식)  
    - 하지만 key-proj에는 효과 미미함이 최근 연구에서 밝혀짐  
- **주의 sink**는 시퀀스 시작위치에 항상 attend되는 특수 토큰 개념이나, gpt-oss에서는 입력 토큰에 변형 없이 **Learned bias logit** 형태로 각 head에 추가 적용  
  
#### 라이선스 및 공개 범위  
- **Apache 2.0 오픈소스 라이선스**로 상업적 활용/파생 모델 구축 자유  
- 단, 진정한 의미의 오픈소스(학습 코드, 데이터 세트 공개)는 아님(‘open weight’ 모델임)  
  
### 기타 세부 사항 및 실제 운용  
  
#### 훈련/최적화  
- gpt-oss는 **2.1M H100-hours** 컴퓨팅 리소스로 훈련  
- 영어 중심, **STEM과 코딩, 일반 지식 텍스트**에 집중  
- 사전학습+지도 미세학습(Instruction), RL 기반 reasoning 단계 등 최신 기법 적용  
  
#### Reasoning Effort 조절  
- **System prompt를 통해 reasoning effort(저/중/고)를 설정**해 답변 길이·정확도를 자동 조정  
- 단순 작업은 저효율로 빠르게, 복잡한 reasoning이 필요하면 높게 설정 가능  
  
#### MXFP4 양자화로 단일 GPU 지원  
- **MXFP4 포맷 활용으로 20B도 16GB VRAM(최신 GPU 필수)에서 구동 가능**  
- 120B는 H100 기준 80GB 메모리면 단일 GPU에서 실현 가능, 분산 처리 없고 구동 간편  
  
#### 벤치마크 및 실 사용성  
- gpt-oss는 **학습 초점이 reasoning에 치중**, 일부 범용 지식 질문에는 환각(hallucination) 경향  
- 사용성 면에서는 현존 오픈 모델 중 상위, tool integration과 조합 시 실용성 강화 예정  
- 실제 사용에서 정확도와 reasoning의 균형, 추후 타 오픈모델과의 비교 필요  
  
### GPT-5와의 비교  
  
- **gpt-oss-120b는 OpenAI 상용 모델(GPT-5)과 벤치마크 기준 근접 성능**을 보임  
- 현실 환경에서의 우위는 더 지켜봐야 하나, 오픈 가중치로 제공되는 최신 LLM 중 강력한 대안임  
- 벤치마크만으로 실전 경쟁력 완전히 설명하기엔 한계, 향후 외부 비교 및 연구에 큰 기회 제공  
  
### 요약  
  
- **gpt-oss 시리즈의 등장은 대형 오픈 가중치 LLM 분야의 새로운 기준 제시**, 최신 LLM들이 도입한 혁신적 아키텍처들이 실제로 어떻게 구현·적용됐는지 상세히 비교, 분석됨  
- Quen3, GPT-5 등 다른 최신 모델과의 차별점과 추세를 파악할 수 있어, 실제 적용/연구에 유용한 최신 동향 파악 가능

## Comments


### Comment 42362

- Author: neo
- Created: 2025-08-11T10:00:43+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44855690) 
* Qwen3가 로컬 테스트에서 훨씬 뛰어남을 확인함. 32B 파라미터 버전에서는 프롬프트를 거의 완벽하게 지키며 결과가 자연스럽게 나옴. 반면 simplebench gpt-oss(120B)는 논리 퍼즐에서 좋지 않은 성능을 보임. 이런 차이는 트레이닝 방식, 모델 차원, 그리고 적은 수의 대형 전문가 vs 많은 수의 소형 전문가 등에서 비롯된다고 생각함
  * Qwen3 32B는 모든 파라미터를 항상 사용하는 덴스 모델임. GPT OSS 20B는 일부만 사용하는 스파스 MoE(Expert of Experts) 모델로, 한 번에 약 3.6B만 활용함. 이로 인해 덴스 20B 모델보다 빠르고, 3.6B 모델보다는 똑똑함. 공정한 비교라면 덴스 8B 모델과 비교해야 하고, Qwen Coder 30B A3B 같은 모델도 좋은 비교 지점임
  * 내 생각에 이런 차이는 모델 아키텍처보다는 데이터와 트레이닝 파이프라인 영향이 훨씬 크다고 봄. gpt-oss가 Phi 스타일의 합성 데이터셋만을 활용하고, 주로 벤치마크 게임에 집중했다는 이야기가 있는데, 그 증거가 충분히 설득력 있어 보임
  * MoE의 기대 성능 공식은 sqrt(활성 헤드 수 * 전체 파라미터 수)임. 예를 들어 sqrt(120*5) ~= 24로, GPT-OSS 120B는 사실 24B 수준의 성능과 훨씬 작은 모델 수준의 속도를 제공함
  * qwen3는 느린 편임. 직접 써보니 동작은 하는데 속도가 느리고, 기능이 부족한 느낌임

* Sebastian Raschk의 블로그 글들이 보물 같은 정보임. get-oss와 qwen3 모델을 Ollama, LM Studio로 로컬에서 사용하고, 대형 모델은 상용 API를 씀. get-oss는 프롬프트에 많은 컨텍스트 정보를 넘기면 좋은 결과를 주고, qwen3는 그냥 훌륭함. 3년 전까지는 신경망, GAN, RNN, LSTM 등 머신러닝을 실제로 구현할 정도로 잘 이해했었는데, 요즘 LLM은 직접 개발할 정도로 쉽지 않아서 아쉬움. Sebastian Raschk의 [책](https://www.manning.com/books/build-a-large-language-model-from-scratch)도 보고 있는데, 아마 끝까지 다 못 볼 듯함
  * 믿을 수 없을 정도로 빠르게 변화하는 분야에서 Sebastian Raschk가 항상 최신 정보를 간결하게 정리해줘서 정말 도움을 받고 있음

* 로컬 3090 GPU에서 qwen3 coder instruct 30b-a3b exl3 q6 모델을 돌려서 샘플 페이지도 만들고, 서버 실행, 남아있는 서버 감지, 이를 직접 종료한 후(권한 요청까지 받음), 재실행 후 ip를 자동으로 찾아 브라우저에 띄우는 과정을 해봄. 이제는 더 이상 단순 데모가 아니라 주니어나 인턴에게도 실질적으로 유용한 수준의 도움임

* 내 경험상 qwen3-coder가 월등히 뛰어남. gpt-oss:20b도 설치해봤지만, 코드 요약을 시키면 qwen3는 몇 초 만에 결과가 나오고 gpt-oss는 5분 넘게 아무 일도 하지 않아서 중단함. 그래서 그냥 qwen3만 씀. 만약 원하는 답을 못 받으면, 검색 엔진이나 Perplexity를 씀. 10GB 3080, Ryzen 3600x, 32GB RAM을 쓰고 있음. Qwen3-coder는 지금까지 써본 것 중 최고임
  * Qwen3 coder 480B는 Sonnet 4와 맞먹을 정도로 좋음. 이 덕분에 중국 모델이 미국 기반 모델을 조만간 앞지를 수도 있다는 실감을 처음 가짐(특히 코딩 분야에서)
  * gpt-oss 20B는 10GB에 올라가지 않아서 생긴 문제일 가능성이 있음
  * 나도 gpt-oss-20b를 간단하게 쓰는데, 짧은 프롬프트(단문)에는 무한 반복에 빠질 때가 있음. llama.cpp로 돌릴 때 반복 패널티 값을 작게 잡으니 그런 문제가 없었음(주로 diff 분석에 하루 몇 번 정도 사용함). 단, 내가 운이 좋은 걸 수도 있음
  * 혹시 agentic 방식(여러 번의 질문과 답변을 주고받는 자동화)으로 쓰고 있는지, 아니면 복사해서 “이 코드 짜줘” 식의 단일 입력/출력으로만 쓰는지 궁금함. 최신 공개 모델이 agentic한 코딩에서 얼마나 상용 모델을 따라잡았는지 알고 싶음

* 요즘 오픈 웨이트 LLM들은 아키텍처가 너무 비슷하고, 혁신이 데이터나 RL 쪽에서만 일어나고 있는 점이 흥미로움. 예전 대형 ML 조직에서는 아키텍처 튜닝이 가장 중요했는데 현실은 달라 보임
  * LLM 규모에서는 하이퍼파라미터 튜닝 자체가 불가능하다고 봄. 비용이 너무 커서 여러 아키텍처를 기본 테스트만 하고, 하나를 골라 데이터와 RL로 최적화하는 식임
  * 좋은 지적임. LLM 덕분에 리소스만 충분하면 누구나 도전할 수 있게 되었음. 아키텍처가 꽤 조정에 강하고, 충분한 컴퓨트와 데이터를 넣으면 확장 법칙(scaling law)를 어겨도 괜찮은 모델을 만들 수 있음(Llama 3가 과거에 보여줬던 것처럼)

* Qwen3 4B 모델을 로컬에서 정말 잘 사용 중임. 온라인 모델은 거의 안 쓰고, 웹 검색도 훨씬 타깃팅이 잘 됨. 완전히 신뢰하지는 않지만 전반적으로 괜찮음. 이런 오픈소스 모델이 로컬 지식 자동화의 판도를 바꿀 거라고 확신함
  * Qwen이 직접 더 나은 검색 파라미터를 안내해주는 것인지, 아니면 Qwen이 실제 웹 검색까지 해주는 것인지 궁금함

* LM Arena에서 순수 Transformer 기반이 아닌 모델 중 가장 성능이 좋은 모델은 Jamba임(Transformers와 state space 모델의 하이브리드 구조, 96위). Tencent의 hunyuan-turbos도 역시 하이브리드로, 22위임. [arxiv 논문](https://arxiv.org/abs/2505.15431) 참고

* LLM은 보통 아주 거대한 데이터셋을 딱 한 번(단일 에폭)만 학습함. 이는 여러 번 반복 학습(수백 에폭) 전제를 깔고 있던 Dropout 방식과는 다른 환경임
  * 이건 잘 알려진 사실임. GPT-3 논문의 Table 2.2를 참고하면 됨

* 대형 연구실에서 공개하는 모델들이 추가적인 학습을 더 하면 얼마나 발전할 수 있을지 궁금함. 예를 들어 GPT-OSS가 210만 시간 학습했다면, 그걸 두 배로 늘리면 얼마나 개선될 수 있을지 알고 싶음
  * GPT-4.5는 사실 더 큰 GPT-5로 기획되어 더 많은 데이터를 학습했을 수도 있음. 하지만 너무 비싸서 대규모 상용화는 못 했고, RL 적용 버전도 못 보게 된 아쉬움 있음
  * GPT-5에서 활용된 RL 기반 트레이닝 첨단 기법도 무한정 확장되진 않는다는 점이 이미 드러남

* 사이트에 접속하면 "연결이 안전하지 않습니다"라는 오류 메시지를 받음. "magazine.sebastianraschka.com 웹사이트가 HSTS를 사용 중이라 지금 방문할 수 없습니다"라고 나옴. 크롬 최신 버전, Ubuntu 환경임