# Gemma 4 비주얼 가이드

> Clean Markdown view of GeekNews topic #28188. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28188](https://news.hada.io/topic?id=28188)
- GeekNews Markdown: [https://news.hada.io/topic/28188.md](https://news.hada.io/topic/28188.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-04T10:33:02+09:00
- Updated: 2026-04-04T10:33:02+09:00
- Original source: [newsletter.maartengrootendorst.com](https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4)
- Points: 17
- Comments: 0

## Summary

Google DeepMind의 **Gemma 4 아키텍처를 시각적으로 해설**한 가이드입니다. 2B부터 31B까지 4가지 모델이 모두 이미지 입력을 지원하는 멀티모달 구조인데요. 로컬·글로벌 어텐션 교차 배치, **Keys=Values로 KV 캐시를 절반으로 줄이는 기법**, 소형 모델에서 플래시 메모리에 임베딩을 올리는 **Per-Layer Embeddings** 등 효율화 설계가 촘촘하게 들어가 있습니다. Maarten Grootendorst의 비주얼 가이드 시리즈답게 복잡한 구조를 다이어그램으로 잘 풀어놨으니, LLM 아키텍처에 관심 있는 분이라면 시간 내서 읽어볼 만합니다.

## Topic Body

- Google DeepMind가 출시한 **Gemma 4**는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리로, 모든 변형이 이미지 입력을 지원함  
- 모든 모델은 **로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 레이어를 교차 배치**하는 구조를 공유하며, 마지막 레이어는 항상 글로벌 어텐션으로 고정됨  
- 글로벌 어텐션 레이어에는 **GQA(그룹 쿼리 어텐션), K=V 기법, p-RoPE** 등 세 가지 효율화 기법이 동시에 적용되어 메모리와 연산을 절감함  
- 소형 모델(E2B·E4B)은 **Per-Layer Embeddings(PLE)** 를 통해 플래시 메모리에 대형 임베딩 테이블을 저장해 VRAM 사용을 최소화하며, 오디오 인코더도 추가 탑재함  
- Gemma 4는 가변 종횡비·해상도를 지원하는 **비전 인코더(ViT 기반)** 와 MoE(26B A4B) 아키텍처를 통해 온디바이스부터 대형 추론까지 폭넓은 활용을 지원함  
  
---  
  
### Gemma 4 패밀리 구성  
  
- **4가지 모델**로 구성되며 dense 아키텍처와 MoE 아키텍처 두 종류를 사용  
  - **Gemma 4 - E2B**: Per-Layer Embeddings 적용, 유효 파라미터 20억  
  - **Gemma 4 - E4B**: Per-Layer Embeddings 적용, 유효 파라미터 40억  
  - **Gemma 4 - 31B**: 310억 파라미터 dense 모델  
  - **Gemma 4 - 26B A4B**: 총 260억 파라미터의 MoE 모델, 추론 시 40억 파라미터만 활성화  
- 모든 모델은 **멀티모달**이며 다양한 크기와 해상도의 이미지 입력 처리 가능  
- 소형 모델(E2B·E4B)은 이미지·텍스트 외 **오디오 입력**도 추가 지원  
  
### Gemma 4 공통 아키텍처  
  
#### 어텐션 레이어 교차 배치 (Interleaving Layers)  
  
- Gemma 3와 마찬가지로 **로컬 어텐션(슬라이딩 윈도우)** 과 **글로벌 어텐션** 레이어를 교차 배치  
  - 슬라이딩 윈도우 어텐션: 일정 범위 내 토큰만 참조 → 연산량 감소  
  - 글로벌 어텐션: 전체 시퀀스 참조 → 문맥 전체 구조 파악 가능  
- 슬라이딩 윈도우 크기  
  - 소형 모델(E2B·E4B): **512토큰**  
  - 대형 모델(26B A4B·31B): **1024토큰**  
- Gemma 3에서는 마지막 레이어가 로컬 어텐션인 경우가 있었으나, Gemma 4에서는 **마지막 레이어를 항상 글로벌 어텐션으로 고정**  
- 교차 비율  
  - E2B: 로컬 어텐션 4레이어 + 글로벌 어텐션 1레이어의 **4:1 패턴**  
  - 나머지 모델: **5:1 패턴** (로컬 5레이어 + 글로벌 1레이어)  
  
#### 글로벌 어텐션 효율화  
  
##### GQA (Grouped Query Attention)  
- 글로벌 어텐션 레이어에서 **쿼리 헤드 8개가 KV 헤드 1개를 공유**하여 KV 캐시 저장량 대폭 절감  
- KV 헤드 수를 줄이는 성능 저하를 보완하기 위해 **Key의 차원 크기를 2배로 확대**  
  
##### K=V 기법  
- 글로벌 어텐션 레이어에서 **Keys와 Values를 동일하게 설정**하여 KV 캐시 메모리 요구량 추가 절감  
- 성능 저하가 크지 않으면서도 메모리 효율을 높이는 기법  
  
##### p-RoPE  
- RoPE(회전 위치 인코딩)를 전체 차원이 아닌 **일부 차원에만 적용** (p=0.25이면 상위 25% 페어에만 적용)  
- 저주파 페어는 위치 정보 대신 **의미(semantic) 정보 보존**에 활용  
- 글로벌 어텐션에서 긴 컨텍스트로 인한 **토큰 간 거리 왜곡 문제 완화**에 특히 유효  
- 글로벌 어텐션 레이어에 적용된 전체 개선 사항 요약:  
  - 마지막 레이어는 항상 글로벌 어텐션  
  - 쿼리 8개당 Key 1개 공유  
  - Key 차원 2배 확대  
  - Keys = Values  
  - p=0.25의 p-RoPE 적용  
  
### 비전 인코더  
  
- **Vision Transformer(ViT)** 기반으로 이미지를 패치 시퀀스로 변환하여 임베딩 생성  
  - 각 패치는 16×16픽셀 크기  
- 소형 모델(E2B·E4B)은 **1억 5000만 파라미터** 비전 인코더, 나머지 모델은 **5억 5000만 파라미터** 비전 인코더 사용  
  
#### 가변 종횡비 지원  
  
- 기존 ViT는 정사각형 입력 고정 → 위치 인코딩이 종횡비에 따라 달라지는 문제 발생  
- Gemma 4는 **2D RoPE** 도입: 패치 임베딩을 두 부분으로 분할하여 각각 가로(w)·세로(h) 위치 정보를 독립적으로 인코딩  
- 16×16 픽셀 패치에 맞게 입력 이미지를 **적응형 리사이징**하고, 완전히 맞지 않는 부분은 패딩 처리  
- 가변 크기의 패치는 **공간적 위치 기반으로 풀링**하여 고정 수의 패치 임베딩으로 축소  
  
#### 가변 해상도 지원 (소프트 토큰 버짓)  
  
- **소프트 토큰 버짓(soft token budget)** 개념 도입: LLM에 전달되는 최대 패치 임베딩 수를 제한  
  - 사용자 선택 가능한 버짓: 70, 140, 280, 560, 1120 토큰  
- 버짓이 높을수록(예: 1120) 고해상도 유지, 낮을수록(예: 70) 이미지 다운스케일  
- 예시: 버짓 280이면 최대 패치 수 = 9 × 280 = 2,520개 (3×3 블록 단위로 평균 풀링 적용)  
  
#### 선형 투영 (Linear Projection)  
  
- 비전 인코더 출력 임베딩은 LLM의 토큰 임베딩과 차원·분포가 달라 **소형 신경망으로 투영 처리**  
- 투영 후 **RMSNorm** 적용하여 이후 Transformer 블록의 스케일 기대치에 맞춤  
- 선형 투영 레이어는 Gemma 4와 함께 학습하여 패치 임베딩이 LLM 기대값과 일치하도록 최적화  
  
### Gemma 4 - 31B (Dense)  
  
- 310억 파라미터의 **dense 아키텍처** 모델로, Gemma 4 변형 중 가장 기본에 가까운 구조  
- Gemma 3의 27B 모델과 구조적으로 유사하지만, **K=V 및 p-RoPE** 등 Gemma 4 공통 개선 사항 적용  
- 레이어 수는 62개에서 **60개로 감소**했으나, 레이어당 폭이 더 넓은 구조로 변경  
  
### Gemma 4 - 26B A4B (Mixture of Experts)  
  
- 총 260억 파라미터이지만 추론 시 **40억 파라미터(활성 파라미터)** 만 사용하여 4B 모델 수준의 속도로 동작  
- **MoE(Mixture of Experts)** 구조: 일반 대형 FFNN 대신 다수의 소형 FFNN(Expert)을 두고 입력에 따라 일부만 활성화  
  - 총 128개의 Expert 중 추론 시 **8개 선택 활성화**  
  - **공유 Expert(Shared Expert) 1개**가 항상 활성화: 일반 지식 처리를 담당하며 크기가 다른 Expert의 3배  
- Router가 입력 토큰마다 Expert 선택 확률을 생성하여 라우팅, 선택된 Expert의 처리 결과에 확률 가중치 적용  
- 전체 파라미터는 메모리에 로드되나, 실제 연산에는 8개 + 공유 1개 Expert만 사용 → 나머지 119개는 대기 상태  
  
### Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)  
  
#### Per-Layer Embeddings (PLE)  
  
- 모델 내부가 아닌 **각 레이어별 별도 임베딩 룩업 테이블**을 추가하여 소형 기기에서 VRAM 사용 최소화  
- E2B 기준: 262,144개 토큰 × 35레이어 × 256차원의 PLE 테이블 → **플래시 메모리에 저장**  
- 추론 시작 시 입력 토큰의 레이어별 임베딩을 한 번만 조회 → 이후 각 레이어에서 재조회 불필요  
- 각 디코더 블록 사이에서 **게이팅 함수**로 임베딩 가중치를 결정한 후, 원래 임베딩 크기로 투영(E2B: 256→1536, E4B: 256→2560)  
- 투영된 임베딩을 정규화 후 이전 디코더 블록 출력과 합산 → 모델이 토큰 의미를 지속적으로 참조 가능  
- "E"는 PLE를 제외한 **유효 파라미터(effective parameters)** 를 의미  
  
#### 오디오 인코더  
  
- 소형 모델(E2B·E4B)에만 탑재되며 **자동 음성 인식·번역** 등에 활용  
- 오디오 처리 3단계:  
  1. **특징 추출**: 원시 오디오 → **멜-스펙트로그램(mel-spectrogram)** (시간 × 주파수 2D 표현)  
  2. **청크 그룹화**: 멜 특징을 청크 단위로 묶어 토큰 시퀀스 출발점 설정  
  3. **다운샘플링**: 2개의 2D 합성곱 레이어로 시퀀스 길이 단축, 소프트 토큰 생성  
- 오디오 인코더로 **Conformer** 사용: 표준 Transformer 인코더에 합성곱 모듈을 추가한 구조  
- Conformer 출력 임베딩도 비전 인코더와 마찬가지로 **선형 투영**을 통해 Gemma 4의 임베딩 공간에 맞게 변환

## Comments



_No public comments on this page._
