-
최근 7년간 LLM 아키텍처는 GPT-2(2019)부터 DeepSeek-V3, Llama 4(2024-2025)까지 구조적으로 큰 변화 없이 진화하여 놀랄 만큼 유사성을 유지함
-
DeepSeek V3/R1, Llama 4 등 최신 모델은 Mixture-of-Experts(MoE), MLA, Sliding Window Attention 같은 새로운 최적화 방식을 도입하여 메모리 효율과 추론 성능을 향상함
-
OLMo 2, Gemma 3 등 일부 오픈소스 모델은 투명한 데이터 공개와 독특한 normalization layer 배치로 연구·개발에 좋은 설계 사례로 주목받음
-
Qwen3, SmolLM3, Kimi 2 등 다양한 크기와 구조의 모델이 등장, MoE와 Dense 아키텍처의 장단점과 활용 목적에 따라 선택지가 넓어짐
-
최근 LLM의 공통 트렌드는 대형화·고도화와 함께, 효율적인 구조 개량 및 다양한 하드웨어 환경 대응임
서론
- 2017년 GPT 원형 이후 GPT-2(2019)부터 DeepSeek-V3 및 Llama 4(2024-2025)까지 보면 LLM 아키텍처는 큰 틀에서는 비슷함(기본적인 트랜스포머 구조는 크게 변하지 않았음)
- Positional embedding은 절대형에서 RoPE 등의 방식으로 변화했고, Multi-Head Attention은 메모리/연산 효율이 높은 GQA(그룹 쿼리 어텐션)으로 넘어가고 있지만 근본 구조는 유지 중
- 성능 비교는 데이터셋·학습 방식에 따라 달라져 직접적인 구조 비교가 어려움
- 본문에서는 최근 오픈 LLM들의 아키텍처 구조 변화를 집중 분석함
1. DeepSeek V3/R1
- DeepSeek R1(2025년 1월)은 DeepSeek V3 아키텍처(2024년 12월)를 기반으로 만들어졌으며, 고도화된 추론 능력과 대규모 파라미터(671억개)로 주목받음
- 핵심 아키텍처: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
-
MLA: Key/Value를 저차원으로 압축해 KV cache 메모리 절감, GQA 대비 더 좋은 성능
-
MoE: FeedForward 모듈을 여러 expert로 분산, 토큰마다 일부 expert만 활성화하는 sparse 구조
- DeepSeek V3: 256개 expert, 전체 파라미터 671B, 추론시 9개 expert(37B 파라미터)만 사용
- 항상 활성화되는 shared expert로 일반 패턴 학습 효율화
-
특징: 대형(671B)이지만 추론 효율, MLA로 GQA 대비 성능 우위, MoE로 대규모 학습 용량 확보
2. OLMo 2
- Allen Institute for AI의 완전 공개형 모델
- 성능보다는 투명한 설계와 코드 공개가 장점
- 아키텍처 포인트: RMSNorm 위치(Post-Norm 적용), QK-Norm
- 기존 GPT류는 Pre-Norm, OLMo 2는 Attention/FeedForward 뒤에 normalization 적용(Post-Norm flavor)
- QK-Norm: Attention의 query/key에 추가 RMSNorm, 학습 안정성 개선
-
전통적인 Multi-Head Attention(MHA) 구조 유지
- Llama 3 등과 유사하나 normalization 전략 차별화
3. Gemma 3
- Google의 대표 오픈 LLM, 다국어 지원을 위한 대형 Vocabulary 및 27B 크기 모델에 집중한 것이 특징
-
Sliding Window Attention(로컬 window)으로 KV cache 메모리 대폭 절감
- Gemma 2: Global/Local 1:1, 4k window, Gemma 3: 5:1 비율, window 1024로 감소
- 성능(Perplexity)에 거의 영향 없음
-
Normalization: GQA module 주변에 Pre-Norm, Post-Norm RMSNorm을 모두 적용
-
Gemma 3n: 소형 기기 대응, Per-Layer Embedding(계층별 파라미터만 GPU 상주), MatFormer(부분 모델 분할 사용) 로 경량화
4. Mistral Small 3.1
- Mistral Small 3.1 24B, Gemma 3 27B보다 빠르고 벤치마크 상위권
- 커스텀 토크나이저, KV cache·layer 수 축소로 추론 지연 최소화
- Sliding window attention은 버리고, 최적화된 GQA + FlashAttention 사용하여 추론 속도 및 코드 효율 집중
5. Llama 4
-
MoE 아키텍처 적극 도입하여 추론 효율성과 모델 용량 모두 확보, DeepSeek-V3와 구조 유사
-
GQA 사용, MoE expert 수와 hidden size 다름
- DeepSeek-V3: 9개 expert(2,048), Llama 4: 2개 expert(8,192), 활성 파라미터 17B(DeepSeek 37B)
- MoE 블록과 Dense 블록을 번갈아 삽입하는 클래식 MoE 설계
- 최근 LLM에서 MoE의 대중화 확인
6. Qwen3
- 다양한 크기의 Dense (0.6B~32B)와 MoE(30B-A3B, 235B-A22B) 버전 제공
- 소형(0.6B)은 학습·추론 효율 및 토큰 throughput이 뛰어남. 초경량 LLM 중 뛰어난 성능 확보, 메모리 효율 및 학습 편의성도 탁월
- Dense: 레이어 수 많고, 메모리 적음, 속도는 느림(Llama 3 1B 대비)
- MoE: Qwen3 235B-A22B는 22B active param, shared expert는 사용하지 않아(이전 Qwen2.5-MoE는 shared expert 포함) 효율성 증가
- Qwen3 235B-A22B와 DeepSeek-V3는 전체 구조에서 매우 유사
- Dense와 MoE 모두 제공해 다양한 활용 목적에 대응
7. SmolLM3
- 3B 파라미터급 소형 모델, Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B와 경쟁
- 아키텍처는 표준적이지만 NoPE(No Positional Embedding) 적용
- RoPE 등 positional encoding 없이 causal mask만 활용
- 긴 시퀀스에서 길이 일반화(Length Generalization) 향상
- 실험적 구조, 일부 레이어에만 적용
8. Kimi 2
-
1조 파라미터 대형 오픈 모델로 오픈 모델로는 최대 규모
- DeepSeek-V3 구조를 기반으로, MoE 레이어 수 확장 및 MLA의 헤드 수 조정
- 학습에 AdamW 대신 Muon optimizer 사용하여 학습 효율화, loss decay 우수
- DeepSeek-V3 대비 더 많은 MoE expert, MLA head 수 축소
- Kimi 1.5의 경험 기반, Kimi 2로 오픈웨이트 공개 및 최고 수준 성능 달성
결론 및 트렌드
- 최근 LLM은 근본적인 구조는 유지하되 아키텍처 대형화, MoE 및 각종 효율화 구조의 도입이 특징
- 오픈 모델의 경우 투명한 데이터, 설계, 코드 공개로 연구 및 산업적 활용 가치가 높아짐
-
Dense와 MoE, MLA·GQA·Sliding Window Attention, 다양한 normalization 전략 등 각 모델마다 최적화 지향점이 다름
- 하드웨어 환경, 활용 목적, 학습·추론 효율성에 따라 아키텍처 선택지가 다양해진 시기임