빅 LLM들의 아키텍처 비교

(magazine.sebastianraschka.com)

26P by GN⁺ 3달전 | ★ favorite | 댓글 2개

최근 7년간 LLM 아키텍처는 GPT-2(2019)부터 DeepSeek-V3, Llama 4(2024-2025)까지 구조적으로 큰 변화 없이 진화하여 놀랄 만큼 유사성을 유지함
DeepSeek V3/R1, Llama 4 등 최신 모델은 Mixture-of-Experts(MoE), MLA, Sliding Window Attention 같은 새로운 최적화 방식을 도입하여 메모리 효율과 추론 성능을 향상함
OLMo 2, Gemma 3 등 일부 오픈소스 모델은 투명한 데이터 공개와 독특한 normalization layer 배치로 연구·개발에 좋은 설계 사례로 주목받음
Qwen3, SmolLM3, Kimi 2 등 다양한 크기와 구조의 모델이 등장, MoE와 Dense 아키텍처의 장단점과 활용 목적에 따라 선택지가 넓어짐
최근 LLM의 공통 트렌드는 대형화·고도화와 함께, 효율적인 구조 개량 및 다양한 하드웨어 환경 대응임

서론

2017년 GPT 원형 이후 GPT-2(2019)부터 DeepSeek-V3 및 Llama 4(2024-2025)까지 보면 LLM 아키텍처는 큰 틀에서는 비슷함(기본적인 트랜스포머 구조는 크게 변하지 않았음)
Positional embedding은 절대형에서 RoPE 등의 방식으로 변화했고, Multi-Head Attention은 메모리/연산 효율이 높은 GQA(그룹 쿼리 어텐션)으로 넘어가고 있지만 근본 구조는 유지 중
성능 비교는 데이터셋·학습 방식에 따라 달라져 직접적인 구조 비교가 어려움
본문에서는 최근 오픈 LLM들의 아키텍처 구조 변화를 집중 분석함

1. DeepSeek V3/R1

DeepSeek R1(2025년 1월)은 DeepSeek V3 아키텍처(2024년 12월)를 기반으로 만들어졌으며, 고도화된 추론 능력과 대규모 파라미터(671억개)로 주목받음
핵심 아키텍처: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
MLA: Key/Value를 저차원으로 압축해 KV cache 메모리 절감, GQA 대비 더 좋은 성능
MoE: FeedForward 모듈을 여러 expert로 분산, 토큰마다 일부 expert만 활성화하는 sparse 구조
- DeepSeek V3: 256개 expert, 전체 파라미터 671B, 추론시 9개 expert(37B 파라미터)만 사용
- 항상 활성화되는 shared expert로 일반 패턴 학습 효율화
특징: 대형(671B)이지만 추론 효율, MLA로 GQA 대비 성능 우위, MoE로 대규모 학습 용량 확보

2. OLMo 2

Allen Institute for AI의 완전 공개형 모델
성능보다는 투명한 설계와 코드 공개가 장점
아키텍처 포인트: RMSNorm 위치(Post-Norm 적용), QK-Norm
- 기존 GPT류는 Pre-Norm, OLMo 2는 Attention/FeedForward 뒤에 normalization 적용(Post-Norm flavor)
- QK-Norm: Attention의 query/key에 추가 RMSNorm, 학습 안정성 개선
전통적인 Multi-Head Attention(MHA) 구조 유지
Llama 3 등과 유사하나 normalization 전략 차별화

3. Gemma 3

Google의 대표 오픈 LLM, 다국어 지원을 위한 대형 Vocabulary 및 27B 크기 모델에 집중한 것이 특징
Sliding Window Attention(로컬 window)으로 KV cache 메모리 대폭 절감
- Gemma 2: Global/Local 1:1, 4k window, Gemma 3: 5:1 비율, window 1024로 감소
- 성능(Perplexity)에 거의 영향 없음
Normalization: GQA module 주변에 Pre-Norm, Post-Norm RMSNorm을 모두 적용
Gemma 3n: 소형 기기 대응, Per-Layer Embedding(계층별 파라미터만 GPU 상주), MatFormer(부분 모델 분할 사용) 로 경량화

4. Mistral Small 3.1

Mistral Small 3.1 24B, Gemma 3 27B보다 빠르고 벤치마크 상위권
커스텀 토크나이저, KV cache·layer 수 축소로 추론 지연 최소화
Sliding window attention은 버리고, 최적화된 GQA + FlashAttention 사용하여 추론 속도 및 코드 효율 집중

5. Llama 4

MoE 아키텍처 적극 도입하여 추론 효율성과 모델 용량 모두 확보, DeepSeek-V3와 구조 유사
GQA 사용, MoE expert 수와 hidden size 다름
- DeepSeek-V3: 9개 expert(2,048), Llama 4: 2개 expert(8,192), 활성 파라미터 17B(DeepSeek 37B)
MoE 블록과 Dense 블록을 번갈아 삽입하는 클래식 MoE 설계
최근 LLM에서 MoE의 대중화 확인

6. Qwen3

다양한 크기의 Dense (0.6B~32B)와 MoE(30B-A3B, 235B-A22B) 버전 제공
소형(0.6B)은 학습·추론 효율 및 토큰 throughput이 뛰어남. 초경량 LLM 중 뛰어난 성능 확보, 메모리 효율 및 학습 편의성도 탁월
Dense: 레이어 수 많고, 메모리 적음, 속도는 느림(Llama 3 1B 대비)
MoE: Qwen3 235B-A22B는 22B active param, shared expert는 사용하지 않아(이전 Qwen2.5-MoE는 shared expert 포함) 효율성 증가
Qwen3 235B-A22B와 DeepSeek-V3는 전체 구조에서 매우 유사
Dense와 MoE 모두 제공해 다양한 활용 목적에 대응

7. SmolLM3

3B 파라미터급 소형 모델, Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B와 경쟁
아키텍처는 표준적이지만 NoPE(No Positional Embedding) 적용
- RoPE 등 positional encoding 없이 causal mask만 활용
- 긴 시퀀스에서 길이 일반화(Length Generalization) 향상
- 실험적 구조, 일부 레이어에만 적용

8. Kimi 2

1조 파라미터 대형 오픈 모델로 오픈 모델로는 최대 규모
DeepSeek-V3 구조를 기반으로, MoE 레이어 수 확장 및 MLA의 헤드 수 조정
학습에 AdamW 대신 Muon optimizer 사용하여 학습 효율화, loss decay 우수
DeepSeek-V3 대비 더 많은 MoE expert, MLA head 수 축소
Kimi 1.5의 경험 기반, Kimi 2로 오픈웨이트 공개 및 최고 수준 성능 달성

결론 및 트렌드

최근 LLM은 근본적인 구조는 유지하되 아키텍처 대형화, MoE 및 각종 효율화 구조의 도입이 특징
오픈 모델의 경우 투명한 데이터, 설계, 코드 공개로 연구 및 산업적 활용 가치가 높아짐
Dense와 MoE, MLA·GQA·Sliding Window Attention, 다양한 normalization 전략 등 각 모델마다 최적화 지향점이 다름
하드웨어 환경, 활용 목적, 학습·추론 효율성에 따라 아키텍처 선택지가 다양해진 시기임

▲

tensun 3달전 [-]

한글은 qwen이 잘 되는 것같아요.

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

이번 글은 LLM 아키텍처에 대해 배울 수 있는 완벽한 추상화 수준과 상세한 설명이 있어서 원래 논문을 읽는 것보다 훨씬 쉽게 많은 정보를 습득할 수 있었음
초보자와 전문가 사이 단계에 있는 사람들에게는 이 글의 다이어그램이 매우 인상적으로 느껴짐, 최신 모델들이 한눈에 정리된 모습이 정말 유용함
관련 내용으로 DeepSeek가 트랜스포머 아키텍처를 어떻게 개선했는지 설명하는 글과, Meta의 슈퍼인텔리전스 관련 분석 아티클 일부 섹션도 참고할 만함
나처럼 최신 동향을 못 따라가던 사람들에게는 이런 요약글이 정말 반가운 catchup임
차후에는 o5, o3 Pro, o4 또는 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 등 닫힌 소스의 frontier 모델들에 대한 소문까지 포함한 2부가 나왔으면 하는 바람임
서로 다른 LLM 아키텍처 차이를 자세히 정리해줘서 고맙고, 덕분에 이해하기도 쉽고 교육적임
솔직히 GPT-2(2019) 시절과 비교하면 지금의 발전 속도가 믿기 힘들 정도임, 요즘은 LLM의 성능을 제대로 비교하는 것도 어려울 정도인데 2주마다 새로운 모델이 벤치마크를 갱신함. DeepSeek가 언급된 점이 반가운데, V3에서 도입된 아키텍처 혁신 덕분에 계산 효율성이 크게 향상됐고, 이 점이 당시 다른 모델과 차별점을 없게 만든 결정적인 포인트였음
다양한 새로운 아키텍처들이 정확도나 속도 면에서 많은 혁신을 이뤘지만, 여전히 정확한 정보 생성을 보장하는 근본적인 문제는 해결되지 않고 있음. Retrieval Augmented Generation(RAG)이나 에이전트 등 다양한 방식들이 이런 문제를 개선하긴 하지만, 앞으로의 아키텍처가 결국 이런 방식들을 대체할지도 궁금함
- 근본적으로 트랜스포머는 텍스트 예측을 목표로 훈련하는데, 이 방식은 논리성 임베딩에 한계가 있기 때문임. 더 이상 환각 현상을 줄이려면, 완전히 다른 교육 목표가 필요하다고 생각함
- 모델은 어떤 상황에서 일반화를 해도 되는지, 아니면 더 많은 정보가 필요한지 구별하지 못함. 예를 들어, 왜 어떤 메서드는 존재하는데 다른 비슷한 함수는 없는지 쉽게 구별하지 못함. 어릴 적 어머니를 훌륭한 cooker라 부른 적이 있는데, 머신과 인간에게 각기 다른 단어가 할당된다는 걸 몰랐었음. 이런 비슷한 단어의 일반화가 모델에도 적용된다고 느끼게 됨
- DeepSeek-V2와 Llama 3.1 같은 최근 아키텍처는 설계적 개선만으로도 사실성(factuality)이 꽤 향상된 결과를 보여줌. 특히 집중(attention) 메커니즘과 환각 억제에 특화된 학습 목표가 배경임
- RAG(검색 기반 응답)는 구조적으로 단순하고 구현도 쉽지만, 왜 아직까지 기본 LLM에 내장되지 않았는지 늘 궁금했음. 아예 모델 내부로 통합되지 못하는 건 RAG나 그 변형들의 근본적인 한계를 반증하는 것 같음. 정말 효과적인 방식이라면 외부 추가가 아니라 아키텍처 기본 기능으로 도입됐을 것이라고 생각함
Claude에게 원문을 읽고 새로운 아키텍처를 제안해보라고 지시했음
Claude의 결과물 링크
하지만 이 결과가 실제로 쓸만한지는 잘 모르겠음

답변달기