# LLM 아키텍처 갤러리

> Clean Markdown view of GeekNews topic #27553. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27553](https://news.hada.io/topic?id=27553)
- GeekNews Markdown: [https://news.hada.io/topic/27553.md](https://news.hada.io/topic/27553.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-16T12:32:43+09:00
- Updated: 2026-03-16T12:32:43+09:00
- Original source: [sebastianraschka.com](https://sebastianraschka.com/llm-architecture-gallery/)
- Points: 50
- Comments: 2

## Summary

최신 오픈웨이트 LLM들의 **아키텍처 도식과 핵심 사양**을 한눈에 비교할 수 있는 온라인 갤러리입니다. Dense·MoE·Hybrid 구조를 포함해 2024~2026년 공개된 주요 모델의 파라미터 규모, 어텐션 방식, 설계 포인트를 표로 정리해 구조적 진화를 빠르게 파악할 수 있게 합니다.

## Topic Body

- 최신 **대형 언어 모델(LLM)** 들의 구조 도식과 핵심 사양을 한눈에 정리한 온라인 갤러리로, 2024~2026년 공개된 주요 모델들을 포함  
- 각 모델은 **파라미터 규모, 디코더 유형, 어텐션 방식, 주요 설계 포인트**를 요약한 표 형태로 구성  
- 자료는 Sebastian Raschka의 비교 분석 글 **‘The Big LLM Architecture Comparison’** 과 **‘A Dream of Spring for Open-Weight LLMs’** 에서 발췌  
- 사용자는 모델 이름을 클릭해 해당 세부 설명으로 이동하거나, 이미지를 클릭해 **고해상도 구조도(182메가픽셀)** 를 확대 가능  
- 오픈웨이트 LLM 연구자와 개발자를 위한 **참조용 아키텍처 데이터베이스**로서, 최신 MoE·Hybrid·Dense 구조의 진화를 한곳에서 확인 가능  

---

### 개요
- 이 페이지는 **LLM 아키텍처 도식과 팩트시트**를 수집한 갤러리로, Raschka의 두 주요 비교 기사에서 도표만 발췌해 정리  
  - 원문 출처: *The Big LLM Architecture Comparison*, *A Dream of Spring for Open-Weight LLMs*  
- 각 모델 항목은 **모델명, 파라미터 수, 공개일, 디코더 유형, 어텐션 방식, 주요 설계 특징, 관련 개념 링크**로 구성  
- 잘못된 정보나 링크 오류 발견 시 GitHub 이슈 트래커를 통해 신고 가능  
- 요청이 많아 **Zazzle**을 통해 14570×12490 해상도의 **포스터(56MB PNG)** 버전도 제공  

### 주요 모델 예시

#### Llama 3 8B
- 80억 파라미터의 **Dense 디코더** 기반 모델로, OLMo 2의 정규화 및 어텐션 선택을 비교하기 위한 기준 스택  
- **GQA + RoPE** 어텐션 사용, **Pre-norm** 구조 유지  
- 2024년 4월 18일 공개  

#### OLMo 2 7B
- 70억 파라미터의 **Dense 모델**, **MHA + QK-Norm** 어텐션 사용  
- **Inside-residual post-norm** 구조로 학습 안정성 향상  
- 2024년 11월 25일 공개  

#### DeepSeek V3
- 6,710억 총 파라미터 중 370억 활성화된 **Sparse MoE** 모델  
- **MLA 어텐션**과 **공유 전문가(shared expert)** 구조를 결합  
- 대형 오픈 MoE 모델 붐을 촉발한 대표 템플릿  

#### DeepSeek R1
- DeepSeek V3 기반의 **추론(reasoning) 특화 버전**, 동일한 아키텍처 유지  
- 2025년 1월 20일 공개, **MLA 기반 Sparse MoE** 구조  

#### Gemma 3 27B
- 270억 파라미터의 **Dense 모델**, **GQA + QK-Norm** 및 **5:1 슬라이딩윈도/글로벌 어텐션** 사용  
- 다국어 어휘 확장과 **로컬 어텐션 강화**가 특징  
- 2025년 3월 11일 공개  

### MoE 및 Hybrid 아키텍처 확장

#### Llama 4 Maverick
- Meta의 **Sparse MoE** 모델로, DeepSeek V3 구조를 기반으로 하되 **전통적 GQA 어텐션** 채택  
- 4,000억 총 파라미터 중 170억 활성화  
- **Dense와 MoE 블록을 교차 배치**, 전문가 수를 줄이고 규모를 확대  

#### Qwen3 235B-A22B
- DeepSeek V3와 유사한 **Sparse MoE** 구조에서 **공유 전문가 제거**  
- 2,350억 총 파라미터 중 220억 활성화, **GQA + QK-Norm** 사용  
- 2025년 4월 28일 공개  

#### Kimi K2
- 1조 파라미터 규모의 **Sparse MoE** 모델, DeepSeek V3를 확장  
- **MLA 어텐션** 사용, 전문가 수 증가 및 MLA 헤드 수 감소  
- 2025년 7월 10일 공개  

#### GLM-4.5 355B
- **에이전트 지향형 Sparse MoE** 모델로, DeepSeek의 **Dense-prefix MoE** 구조 채택  
- 3,550억 총 파라미터 중 320억 활성화, **GQA + QK-Norm** 사용  
- 2025년 7월 28일 공개  

#### GPT-OSS 20B / 120B
- OpenAI의 **오픈웨이트 MoE 시리즈**, **GQA 기반 슬라이딩윈도/글로벌 교차 어텐션** 사용  
- 20B 모델은 얕고 넓은 구조, 120B 모델은 동일한 설계를 확장  
- 2025년 8월 4일 공개  

### Hybrid 및 차세대 구조

#### Qwen3 Next 80B-A3B
- **Gated DeltaNet + Gated Attention** 혼합형 어텐션을 사용하는 **Sparse Hybrid** 모델  
- 800억 총 파라미터 중 30억 활성화, **262k 컨텍스트** 지원  
- 2025년 9월 9일 공개  

#### Kimi Linear 48B-A3B
- **Linear Attention + MLA** 결합형 하이브리드 구조  
- **NoPE** 적용 및 **채널 단위 게이팅**으로 긴 문맥 효율 향상  
- 2025년 10월 30일 공개  

#### Nemotron 3 Nano / Super
- NVIDIA의 **Transformer-State-Space Hybrid** 모델  
- Nano(30B)는 **Mamba-2 + MoE**, Super(120B)는 **LatentMoE + MTP** 추가  
- 각각 2025년 12월 4일, 2026년 3월 11일 공개  

#### Ling 2.5 1T
- 1조 파라미터의 **Sparse Hybrid** 모델, **Lightning Attention + MLA** 조합  
- 630억 활성 파라미터, **7:1 비율의 선형/MLA 어텐션** 구성  
- 2026년 2월 15일 공개  

### 최신 오픈웨이트 모델

#### Qwen3.5 397B
- Qwen3 Next의 하이브리드 어텐션을 계승한 주력 모델  
- 3,970억 총 파라미터 중 170억 활성화, **512 전문가** 구성  
- 2026년 2월 16일 공개  

#### Sarvam 30B / 105B
- 인도어 지원 중심의 **Sparse MoE** 모델  
- 30B는 **GQA + QK-Norm**, 105B는 **MLA + NoPE + RoPE** 사용  
- 2026년 3월 3일 공개  

### 참고 기사
- **The Big LLM Architecture Comparison**: Dense, MoE, MLA, Hybrid 디코더 구조의 설계 차이를 해설  
- **A Dream of Spring for Open-Weight LLMs**: 2026년 초 공개된 MiniMax, Qwen, Ling, Sarvam 등 오픈웨이트 모델 추가 분석

## Comments



### Comment 53190

- Author: orange
- Created: 2026-03-17T11:01:21+09:00
- Points: 1

재밌네요

### Comment 53109

- Author: neo
- Created: 2026-03-16T12:32:43+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47388676) 
- 여러 해의 실험 끝에 **오픈 가중치 모델들**이 결국 비슷한 형태로 수렴했음을 흥미롭게 봄  
  MoE 라우팅, state-space 모델, 선형 어텐션 등 다양한 시도가 있었지만, 지금은 **dense decoder-only transformer** 구조에 RMSNorm, rotary position embedding, SwiGLU, grouped-query attention을 조합한 형태로 정착됨  
  이제 차별화의 핵심은 **훈련 레시피와 데이터 파이프라인**으로 이동했음  
  DeepSeek-R1의 진짜 혁신은 구조가 아니라 **추론 체인에 대한 강화학습**이었고, Llama 3도 구조는 거의 그대로지만 데이터와 후처리 과정이 완전히 새로워졌음  
  이는 칩 설계에서 ISA보다 **미세공정과 마이크로아키텍처**가 중요해진 흐름과 닮아 있음  

- Sebastian의 글은 언제나 읽을 가치가 있음  
  그의 책 *Build an LLM From Scratch*를 강력히 추천함. 이 책을 통해서야 비로소 **Transformer 메커니즘**을 제대로 이해하게 되었음  
  LLM Architecture Gallery를 보면 모델 간의 차이가 흥미롭지만, 지난 7년간 GPT-2 이후 **근본적인 혁신**은 거의 없었음  
  오늘날의 오픈 가중치 모델들도 멀리서 보면 여전히 GPT-2와 비슷한 **attention + feed-forward 층의 반복 구조**임  
  최근의 비약적 발전은 **스케일링과 새로운 훈련 기법(RLVR 등)** 덕분이며, 이는 Bitter Lesson의 또 다른 사례로 보임  

- 정말 멋진 시각화임. 예전에 봤던 [Neural Network Zoo](https://www.asimovinstitute.org/neural-network-zoo/)를 떠올리게 함  
  다양한 신경망 구조를 한눈에 볼 수 있었던 그 프로젝트처럼 이번에도 **아키텍처의 다양성**을 잘 보여줌  

- 훌륭한 작업임  
  혹시 **정렬 기준**이 있는지 궁금함. 진화의 흐름이나 혁신의 계보를 **가계도 형태**로 볼 수 있다면 더 좋을 것 같음  
  또한 모델 크기의 변화를 **스케일로 시각화**하면 발전 속도를 직관적으로 느낄 수 있을 것 같음  
  - DeepSeek 계열의 진화를 보여주는 자료로 [이 글](https://magazine.sebastianraschka.com/p/technical-deepseek)을 참고할 수 있음  

- 정말 멋짐. 공유해줘서 고마움  
  확대 가능한 버전은 [여기](https://zoomhub.net/LKrpB)에서 볼 수 있음  

- 통계학자로서, “신경망이 함수를 근사한다”는 개념에서 실제 **머신러닝 모델 엔지니어링**으로 이어지는 **모듈식 이해 방식**을 늘 원했음  
  이번 자료가 그 간극을 메워주는 느낌임  

- 이 다이어그램은 어떤 **도구**로 그렸는지 궁금함  

- 흥미로운 컬렉션임  
  실제로 프롬프트 패턴을 비교해보면 **아키텍처 차이**가 의외의 방식으로 드러남  
  예를 들어, **긴 컨텍스트 윈도우**는 단순히 더 많은 텍스트를 다루는 것뿐 아니라 입력 구조 자체를 다르게 설계하게 만듦  

- 구조적으로 가장 단순하면서도 **경쟁력 있는 모델**은 무엇인지 궁금함  
  - 경쟁력은 구조보다는 **규모, 데이터, 미세조정 데이터**에서 나옴  
    최근 몇 년간 구조적 혁신은 거의 없었고, 대부분은 **훈련 효율성 향상**을 위한 변화였음  
  - “경쟁력”의 정의를 느슨하게 잡는다면, **Markov chain**도 직접 구현할 수 있음  
    Transformer 모델은 수많은 **선행 연구의 축적** 위에서 점진적으로 발전해온 결과물임  

- 클릭했을 때 LLM이 **초고층 빌딩이나 댐, 다리**를 설계하는 이야기일 줄 알고 기대했음  
  팝콘까지 준비했는데 아쉬움
