Gemma 4 비주얼 가이드

(newsletter.maartengrootendorst.com)

17P by GN⁺ 2달전 | ★ favorite | 댓글과 토론

Google DeepMind가 출시한 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리로, 모든 변형이 이미지 입력을 지원함
모든 모델은 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 레이어를 교차 배치하는 구조를 공유하며, 마지막 레이어는 항상 글로벌 어텐션으로 고정됨
글로벌 어텐션 레이어에는 GQA(그룹 쿼리 어텐션), K=V 기법, p-RoPE 등 세 가지 효율화 기법이 동시에 적용되어 메모리와 연산을 절감함
소형 모델(E2B·E4B)은 Per-Layer Embeddings(PLE) 를 통해 플래시 메모리에 대형 임베딩 테이블을 저장해 VRAM 사용을 최소화하며, 오디오 인코더도 추가 탑재함
Gemma 4는 가변 종횡비·해상도를 지원하는 비전 인코더(ViT 기반) 와 MoE(26B A4B) 아키텍처를 통해 온디바이스부터 대형 추론까지 폭넓은 활용을 지원함

Gemma 4 패밀리 구성

4가지 모델로 구성되며 dense 아키텍처와 MoE 아키텍처 두 종류를 사용
- Gemma 4 - E2B: Per-Layer Embeddings 적용, 유효 파라미터 20억
- Gemma 4 - E4B: Per-Layer Embeddings 적용, 유효 파라미터 40억
- Gemma 4 - 31B: 310억 파라미터 dense 모델
- Gemma 4 - 26B A4B: 총 260억 파라미터의 MoE 모델, 추론 시 40억 파라미터만 활성화
모든 모델은 멀티모달이며 다양한 크기와 해상도의 이미지 입력 처리 가능
소형 모델(E2B·E4B)은 이미지·텍스트 외 오디오 입력도 추가 지원

Gemma 4 공통 아키텍처

어텐션 레이어 교차 배치 (Interleaving Layers)

Gemma 3와 마찬가지로 로컬 어텐션(슬라이딩 윈도우) 과 글로벌 어텐션 레이어를 교차 배치
- 슬라이딩 윈도우 어텐션: 일정 범위 내 토큰만 참조 → 연산량 감소
- 글로벌 어텐션: 전체 시퀀스 참조 → 문맥 전체 구조 파악 가능
슬라이딩 윈도우 크기
- 소형 모델(E2B·E4B): 512토큰
- 대형 모델(26B A4B·31B): 1024토큰
Gemma 3에서는 마지막 레이어가 로컬 어텐션인 경우가 있었으나, Gemma 4에서는 마지막 레이어를 항상 글로벌 어텐션으로 고정
교차 비율
- E2B: 로컬 어텐션 4레이어 + 글로벌 어텐션 1레이어의 4:1 패턴
- 나머지 모델: 5:1 패턴 (로컬 5레이어 + 글로벌 1레이어)

글로벌 어텐션 효율화

GQA (Grouped Query Attention)

글로벌 어텐션 레이어에서 쿼리 헤드 8개가 KV 헤드 1개를 공유하여 KV 캐시 저장량 대폭 절감
KV 헤드 수를 줄이는 성능 저하를 보완하기 위해 Key의 차원 크기를 2배로 확대

K=V 기법

글로벌 어텐션 레이어에서 Keys와 Values를 동일하게 설정하여 KV 캐시 메모리 요구량 추가 절감
성능 저하가 크지 않으면서도 메모리 효율을 높이는 기법

p-RoPE

RoPE(회전 위치 인코딩)를 전체 차원이 아닌 일부 차원에만 적용 (p=0.25이면 상위 25% 페어에만 적용)
저주파 페어는 위치 정보 대신 의미(semantic) 정보 보존에 활용
글로벌 어텐션에서 긴 컨텍스트로 인한 토큰 간 거리 왜곡 문제 완화에 특히 유효
글로벌 어텐션 레이어에 적용된 전체 개선 사항 요약:
- 마지막 레이어는 항상 글로벌 어텐션
- 쿼리 8개당 Key 1개 공유
- Key 차원 2배 확대
- Keys = Values
- p=0.25의 p-RoPE 적용

비전 인코더

Vision Transformer(ViT) 기반으로 이미지를 패치 시퀀스로 변환하여 임베딩 생성
- 각 패치는 16×16픽셀 크기
소형 모델(E2B·E4B)은 1억 5000만 파라미터 비전 인코더, 나머지 모델은 5억 5000만 파라미터 비전 인코더 사용

가변 종횡비 지원

기존 ViT는 정사각형 입력 고정 → 위치 인코딩이 종횡비에 따라 달라지는 문제 발생
Gemma 4는 2D RoPE 도입: 패치 임베딩을 두 부분으로 분할하여 각각 가로(w)·세로(h) 위치 정보를 독립적으로 인코딩
16×16 픽셀 패치에 맞게 입력 이미지를 적응형 리사이징하고, 완전히 맞지 않는 부분은 패딩 처리
가변 크기의 패치는 공간적 위치 기반으로 풀링하여 고정 수의 패치 임베딩으로 축소

가변 해상도 지원 (소프트 토큰 버짓)

소프트 토큰 버짓(soft token budget) 개념 도입: LLM에 전달되는 최대 패치 임베딩 수를 제한
- 사용자 선택 가능한 버짓: 70, 140, 280, 560, 1120 토큰
버짓이 높을수록(예: 1120) 고해상도 유지, 낮을수록(예: 70) 이미지 다운스케일
예시: 버짓 280이면 최대 패치 수 = 9 × 280 = 2,520개 (3×3 블록 단위로 평균 풀링 적용)

선형 투영 (Linear Projection)

비전 인코더 출력 임베딩은 LLM의 토큰 임베딩과 차원·분포가 달라 소형 신경망으로 투영 처리
투영 후 RMSNorm 적용하여 이후 Transformer 블록의 스케일 기대치에 맞춤
선형 투영 레이어는 Gemma 4와 함께 학습하여 패치 임베딩이 LLM 기대값과 일치하도록 최적화

Gemma 4 - 31B (Dense)

310억 파라미터의 dense 아키텍처 모델로, Gemma 4 변형 중 가장 기본에 가까운 구조
Gemma 3의 27B 모델과 구조적으로 유사하지만, K=V 및 p-RoPE 등 Gemma 4 공통 개선 사항 적용
레이어 수는 62개에서 60개로 감소했으나, 레이어당 폭이 더 넓은 구조로 변경

Gemma 4 - 26B A4B (Mixture of Experts)

총 260억 파라미터이지만 추론 시 40억 파라미터(활성 파라미터) 만 사용하여 4B 모델 수준의 속도로 동작
MoE(Mixture of Experts) 구조: 일반 대형 FFNN 대신 다수의 소형 FFNN(Expert)을 두고 입력에 따라 일부만 활성화
- 총 128개의 Expert 중 추론 시 8개 선택 활성화
- 공유 Expert(Shared Expert) 1개가 항상 활성화: 일반 지식 처리를 담당하며 크기가 다른 Expert의 3배
Router가 입력 토큰마다 Expert 선택 확률을 생성하여 라우팅, 선택된 Expert의 처리 결과에 확률 가중치 적용
전체 파라미터는 메모리에 로드되나, 실제 연산에는 8개 + 공유 1개 Expert만 사용 → 나머지 119개는 대기 상태

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

모델 내부가 아닌 각 레이어별 별도 임베딩 룩업 테이블을 추가하여 소형 기기에서 VRAM 사용 최소화
E2B 기준: 262,144개 토큰 × 35레이어 × 256차원의 PLE 테이블 → 플래시 메모리에 저장
추론 시작 시 입력 토큰의 레이어별 임베딩을 한 번만 조회 → 이후 각 레이어에서 재조회 불필요
각 디코더 블록 사이에서 게이팅 함수로 임베딩 가중치를 결정한 후, 원래 임베딩 크기로 투영(E2B: 256→1536, E4B: 256→2560)
투영된 임베딩을 정규화 후 이전 디코더 블록 출력과 합산 → 모델이 토큰 의미를 지속적으로 참조 가능
"E"는 PLE를 제외한 유효 파라미터(effective parameters) 를 의미

오디오 인코더

소형 모델(E2B·E4B)에만 탑재되며 자동 음성 인식·번역 등에 활용
오디오 처리 3단계:
1. 특징 추출: 원시 오디오 → 멜-스펙트로그램(mel-spectrogram) (시간 × 주파수 2D 표현)
2. 청크 그룹화: 멜 특징을 청크 단위로 묶어 토큰 시퀀스 출발점 설정
3. 다운샘플링: 2개의 2D 합성곱 레이어로 시퀀스 길이 단축, 소프트 토큰 생성
오디오 인코더로 Conformer 사용: 표준 Transformer 인코더에 합성곱 모듈을 추가한 구조
Conformer 출력 임베딩도 비전 인코더와 마찬가지로 선형 투영을 통해 Gemma 4의 임베딩 공간에 맞게 변환

Gemma 4 비주얼 가이드

Gemma 4 패밀리 구성

Gemma 4 공통 아키텍처

어텐션 레이어 교차 배치 (Interleaving Layers)

글로벌 어텐션 효율화

GQA (Grouped Query Attention)

K=V 기법

p-RoPE

비전 인코더

가변 종횡비 지원

가변 해상도 지원 (소프트 토큰 버짓)

선형 투영 (Linear Projection)

Gemma 4 - 31B (Dense)

Gemma 4 - 26B A4B (Mixture of Experts)

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

오디오 인코더

함께 보면 좋은 글 β

댓글과 토론