LLM 아키텍처 갤러리

(sebastianraschka.com)

50P by GN⁺ 3달전 | ★ favorite | 댓글 2개

최신 대형 언어 모델(LLM) 들의 구조 도식과 핵심 사양을 한눈에 정리한 온라인 갤러리로, 2024~2026년 공개된 주요 모델들을 포함
각 모델은 파라미터 규모, 디코더 유형, 어텐션 방식, 주요 설계 포인트를 요약한 표 형태로 구성
자료는 Sebastian Raschka의 비교 분석 글 ‘The Big LLM Architecture Comparison’ 과 ‘A Dream of Spring for Open-Weight LLMs’ 에서 발췌
사용자는 모델 이름을 클릭해 해당 세부 설명으로 이동하거나, 이미지를 클릭해 고해상도 구조도(182메가픽셀) 를 확대 가능
오픈웨이트 LLM 연구자와 개발자를 위한 참조용 아키텍처 데이터베이스로서, 최신 MoE·Hybrid·Dense 구조의 진화를 한곳에서 확인 가능

개요

이 페이지는 LLM 아키텍처 도식과 팩트시트를 수집한 갤러리로, Raschka의 두 주요 비교 기사에서 도표만 발췌해 정리
- 원문 출처: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
각 모델 항목은 모델명, 파라미터 수, 공개일, 디코더 유형, 어텐션 방식, 주요 설계 특징, 관련 개념 링크로 구성
잘못된 정보나 링크 오류 발견 시 GitHub 이슈 트래커를 통해 신고 가능
요청이 많아 Zazzle을 통해 14570×12490 해상도의 포스터(56MB PNG) 버전도 제공

주요 모델 예시

Llama 3 8B

80억 파라미터의 Dense 디코더 기반 모델로, OLMo 2의 정규화 및 어텐션 선택을 비교하기 위한 기준 스택
GQA + RoPE 어텐션 사용, Pre-norm 구조 유지
2024년 4월 18일 공개

OLMo 2 7B

70억 파라미터의 Dense 모델, MHA + QK-Norm 어텐션 사용
Inside-residual post-norm 구조로 학습 안정성 향상
2024년 11월 25일 공개

DeepSeek V3

6,710억 총 파라미터 중 370억 활성화된 Sparse MoE 모델
MLA 어텐션과 공유 전문가(shared expert) 구조를 결합
대형 오픈 MoE 모델 붐을 촉발한 대표 템플릿

DeepSeek R1

DeepSeek V3 기반의 추론(reasoning) 특화 버전, 동일한 아키텍처 유지
2025년 1월 20일 공개, MLA 기반 Sparse MoE 구조

Gemma 3 27B

270억 파라미터의 Dense 모델, GQA + QK-Norm 및 5:1 슬라이딩윈도/글로벌 어텐션 사용
다국어 어휘 확장과 로컬 어텐션 강화가 특징
2025년 3월 11일 공개

MoE 및 Hybrid 아키텍처 확장

Llama 4 Maverick

Meta의 Sparse MoE 모델로, DeepSeek V3 구조를 기반으로 하되 전통적 GQA 어텐션 채택
4,000억 총 파라미터 중 170억 활성화
Dense와 MoE 블록을 교차 배치, 전문가 수를 줄이고 규모를 확대

Qwen3 235B-A22B

DeepSeek V3와 유사한 Sparse MoE 구조에서 공유 전문가 제거
2,350억 총 파라미터 중 220억 활성화, GQA + QK-Norm 사용
2025년 4월 28일 공개

Kimi K2

1조 파라미터 규모의 Sparse MoE 모델, DeepSeek V3를 확장
MLA 어텐션 사용, 전문가 수 증가 및 MLA 헤드 수 감소
2025년 7월 10일 공개

GLM-4.5 355B

에이전트 지향형 Sparse MoE 모델로, DeepSeek의 Dense-prefix MoE 구조 채택
3,550억 총 파라미터 중 320억 활성화, GQA + QK-Norm 사용
2025년 7월 28일 공개

GPT-OSS 20B / 120B

OpenAI의 오픈웨이트 MoE 시리즈, GQA 기반 슬라이딩윈도/글로벌 교차 어텐션 사용
20B 모델은 얕고 넓은 구조, 120B 모델은 동일한 설계를 확장
2025년 8월 4일 공개

Hybrid 및 차세대 구조

Qwen3 Next 80B-A3B

Gated DeltaNet + Gated Attention 혼합형 어텐션을 사용하는 Sparse Hybrid 모델
800억 총 파라미터 중 30억 활성화, 262k 컨텍스트 지원
2025년 9월 9일 공개

Kimi Linear 48B-A3B

Linear Attention + MLA 결합형 하이브리드 구조
NoPE 적용 및 채널 단위 게이팅으로 긴 문맥 효율 향상
2025년 10월 30일 공개

Nemotron 3 Nano / Super

NVIDIA의 Transformer-State-Space Hybrid 모델
Nano(30B)는 Mamba-2 + MoE, Super(120B)는 LatentMoE + MTP 추가
각각 2025년 12월 4일, 2026년 3월 11일 공개

Ling 2.5 1T

1조 파라미터의 Sparse Hybrid 모델, Lightning Attention + MLA 조합
630억 활성 파라미터, 7:1 비율의 선형/MLA 어텐션 구성
2026년 2월 15일 공개

참고 기사

The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid 디코더 구조의 설계 차이를 해설
A Dream of Spring for Open-Weight LLMs: 2026년 초 공개된 MiniMax, Qwen, Ling, Sarvam 등 오픈웨이트 모델 추가 분석

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

orange 3달전 [-]

재밌네요

답변달기

GN⁺ 3달전 [-]

Hacker News 의견들

여러 해의 실험 끝에 오픈 가중치 모델들이 결국 비슷한 형태로 수렴했음을 흥미롭게 봄
MoE 라우팅, state-space 모델, 선형 어텐션 등 다양한 시도가 있었지만, 지금은 dense decoder-only transformer 구조에 RMSNorm, rotary position embedding, SwiGLU, grouped-query attention을 조합한 형태로 정착됨
이제 차별화의 핵심은 훈련 레시피와 데이터 파이프라인으로 이동했음
DeepSeek-R1의 진짜 혁신은 구조가 아니라 추론 체인에 대한 강화학습이었고, Llama 3도 구조는 거의 그대로지만 데이터와 후처리 과정이 완전히 새로워졌음
이는 칩 설계에서 ISA보다 미세공정과 마이크로아키텍처가 중요해진 흐름과 닮아 있음
Sebastian의 글은 언제나 읽을 가치가 있음
그의 책 Build an LLM From Scratch를 강력히 추천함. 이 책을 통해서야 비로소 Transformer 메커니즘을 제대로 이해하게 되었음
LLM Architecture Gallery를 보면 모델 간의 차이가 흥미롭지만, 지난 7년간 GPT-2 이후 근본적인 혁신은 거의 없었음
오늘날의 오픈 가중치 모델들도 멀리서 보면 여전히 GPT-2와 비슷한 attention + feed-forward 층의 반복 구조임
최근의 비약적 발전은 스케일링과 새로운 훈련 기법(RLVR 등) 덕분이며, 이는 Bitter Lesson의 또 다른 사례로 보임
정말 멋진 시각화임. 예전에 봤던 Neural Network Zoo를 떠올리게 함
다양한 신경망 구조를 한눈에 볼 수 있었던 그 프로젝트처럼 이번에도 아키텍처의 다양성을 잘 보여줌
훌륭한 작업임
혹시 정렬 기준이 있는지 궁금함. 진화의 흐름이나 혁신의 계보를 가계도 형태로 볼 수 있다면 더 좋을 것 같음
또한 모델 크기의 변화를 스케일로 시각화하면 발전 속도를 직관적으로 느낄 수 있을 것 같음
- DeepSeek 계열의 진화를 보여주는 자료로 이 글을 참고할 수 있음
정말 멋짐. 공유해줘서 고마움
확대 가능한 버전은 여기에서 볼 수 있음
통계학자로서, “신경망이 함수를 근사한다”는 개념에서 실제 머신러닝 모델 엔지니어링으로 이어지는 모듈식 이해 방식을 늘 원했음
이번 자료가 그 간극을 메워주는 느낌임
이 다이어그램은 어떤 도구로 그렸는지 궁금함
흥미로운 컬렉션임
실제로 프롬프트 패턴을 비교해보면 아키텍처 차이가 의외의 방식으로 드러남
예를 들어, 긴 컨텍스트 윈도우는 단순히 더 많은 텍스트를 다루는 것뿐 아니라 입력 구조 자체를 다르게 설계하게 만듦
구조적으로 가장 단순하면서도 경쟁력 있는 모델은 무엇인지 궁금함
- 경쟁력은 구조보다는 규모, 데이터, 미세조정 데이터에서 나옴
  최근 몇 년간 구조적 혁신은 거의 없었고, 대부분은 훈련 효율성 향상을 위한 변화였음
- “경쟁력”의 정의를 느슨하게 잡는다면, Markov chain도 직접 구현할 수 있음
  Transformer 모델은 수많은 선행 연구의 축적 위에서 점진적으로 발전해온 결과물임
클릭했을 때 LLM이 초고층 빌딩이나 댐, 다리를 설계하는 이야기일 줄 알고 기대했음
팝콘까지 준비했는데 아쉬움

답변달기

LLM 아키텍처 갤러리

개요

주요 모델 예시

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE 및 Hybrid 아키텍처 확장

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid 및 차세대 구조

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

최신 오픈웨이트 모델

Qwen3.5 397B

Sarvam 30B / 105B

참고 기사

Hacker News 의견들

LLM 아키텍처 갤러리

개요

주요 모델 예시

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE 및 Hybrid 아키텍처 확장

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid 및 차세대 구조

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

최신 오픈웨이트 모델

Qwen3.5 397B

Sarvam 30B / 105B

참고 기사

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들