- Google DeepMind가 출시한 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리로, 모든 변형이 이미지 입력을 지원함
- 모든 모델은 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 레이어를 교차 배치하는 구조를 공유하며, 마지막 레이어는 항상 글로벌 어텐션으로 고정됨
- 글로벌 어텐션 레이어에는 GQA(그룹 쿼리 어텐션), K=V 기법, p-RoPE 등 세 가지 효율화 기법이 동시에 적용되어 메모리와 연산을 절감함
- 소형 모델(E2B·E4B)은 Per-Layer Embeddings(PLE) 를 통해 플래시 메모리에 대형 임베딩 테이블을 저장해 VRAM 사용을 최소화하며, 오디오 인코더도 추가 탑재함
- Gemma 4는 가변 종횡비·해상도를 지원하는 비전 인코더(ViT 기반) 와 MoE(26B A4B) 아키텍처를 통해 온디바이스부터 대형 추론까지 폭넓은 활용을 지원함
Gemma 4 패밀리 구성
-
4가지 모델로 구성되며 dense 아키텍처와 MoE 아키텍처 두 종류를 사용
-
Gemma 4 - E2B: Per-Layer Embeddings 적용, 유효 파라미터 20억
-
Gemma 4 - E4B: Per-Layer Embeddings 적용, 유효 파라미터 40억
-
Gemma 4 - 31B: 310억 파라미터 dense 모델
-
Gemma 4 - 26B A4B: 총 260억 파라미터의 MoE 모델, 추론 시 40억 파라미터만 활성화
- 모든 모델은 멀티모달이며 다양한 크기와 해상도의 이미지 입력 처리 가능
- 소형 모델(E2B·E4B)은 이미지·텍스트 외 오디오 입력도 추가 지원
Gemma 4 공통 아키텍처
어텐션 레이어 교차 배치 (Interleaving Layers)
- Gemma 3와 마찬가지로 로컬 어텐션(슬라이딩 윈도우) 과 글로벌 어텐션 레이어를 교차 배치
- 슬라이딩 윈도우 어텐션: 일정 범위 내 토큰만 참조 → 연산량 감소
- 글로벌 어텐션: 전체 시퀀스 참조 → 문맥 전체 구조 파악 가능
- 슬라이딩 윈도우 크기
- 소형 모델(E2B·E4B): 512토큰
- 대형 모델(26B A4B·31B): 1024토큰
- Gemma 3에서는 마지막 레이어가 로컬 어텐션인 경우가 있었으나, Gemma 4에서는 마지막 레이어를 항상 글로벌 어텐션으로 고정
- 교차 비율
- E2B: 로컬 어텐션 4레이어 + 글로벌 어텐션 1레이어의 4:1 패턴
- 나머지 모델: 5:1 패턴 (로컬 5레이어 + 글로벌 1레이어)
글로벌 어텐션 효율화
GQA (Grouped Query Attention)
- 글로벌 어텐션 레이어에서 쿼리 헤드 8개가 KV 헤드 1개를 공유하여 KV 캐시 저장량 대폭 절감
- KV 헤드 수를 줄이는 성능 저하를 보완하기 위해 Key의 차원 크기를 2배로 확대
K=V 기법
- 글로벌 어텐션 레이어에서 Keys와 Values를 동일하게 설정하여 KV 캐시 메모리 요구량 추가 절감
- 성능 저하가 크지 않으면서도 메모리 효율을 높이는 기법
p-RoPE
- RoPE(회전 위치 인코딩)를 전체 차원이 아닌 일부 차원에만 적용 (p=0.25이면 상위 25% 페어에만 적용)
- 저주파 페어는 위치 정보 대신 의미(semantic) 정보 보존에 활용
- 글로벌 어텐션에서 긴 컨텍스트로 인한 토큰 간 거리 왜곡 문제 완화에 특히 유효
- 글로벌 어텐션 레이어에 적용된 전체 개선 사항 요약:
- 마지막 레이어는 항상 글로벌 어텐션
- 쿼리 8개당 Key 1개 공유
- Key 차원 2배 확대
- Keys = Values
- p=0.25의 p-RoPE 적용
비전 인코더
-
Vision Transformer(ViT) 기반으로 이미지를 패치 시퀀스로 변환하여 임베딩 생성
- 소형 모델(E2B·E4B)은 1억 5000만 파라미터 비전 인코더, 나머지 모델은 5억 5000만 파라미터 비전 인코더 사용
가변 종횡비 지원
- 기존 ViT는 정사각형 입력 고정 → 위치 인코딩이 종횡비에 따라 달라지는 문제 발생
- Gemma 4는 2D RoPE 도입: 패치 임베딩을 두 부분으로 분할하여 각각 가로(w)·세로(h) 위치 정보를 독립적으로 인코딩
- 16×16 픽셀 패치에 맞게 입력 이미지를 적응형 리사이징하고, 완전히 맞지 않는 부분은 패딩 처리
- 가변 크기의 패치는 공간적 위치 기반으로 풀링하여 고정 수의 패치 임베딩으로 축소
가변 해상도 지원 (소프트 토큰 버짓)
-
소프트 토큰 버짓(soft token budget) 개념 도입: LLM에 전달되는 최대 패치 임베딩 수를 제한
- 사용자 선택 가능한 버짓: 70, 140, 280, 560, 1120 토큰
- 버짓이 높을수록(예: 1120) 고해상도 유지, 낮을수록(예: 70) 이미지 다운스케일
- 예시: 버짓 280이면 최대 패치 수 = 9 × 280 = 2,520개 (3×3 블록 단위로 평균 풀링 적용)
선형 투영 (Linear Projection)
- 비전 인코더 출력 임베딩은 LLM의 토큰 임베딩과 차원·분포가 달라 소형 신경망으로 투영 처리
- 투영 후 RMSNorm 적용하여 이후 Transformer 블록의 스케일 기대치에 맞춤
- 선형 투영 레이어는 Gemma 4와 함께 학습하여 패치 임베딩이 LLM 기대값과 일치하도록 최적화
Gemma 4 - 31B (Dense)
- 310억 파라미터의 dense 아키텍처 모델로, Gemma 4 변형 중 가장 기본에 가까운 구조
- Gemma 3의 27B 모델과 구조적으로 유사하지만, K=V 및 p-RoPE 등 Gemma 4 공통 개선 사항 적용
- 레이어 수는 62개에서 60개로 감소했으나, 레이어당 폭이 더 넓은 구조로 변경
Gemma 4 - 26B A4B (Mixture of Experts)
- 총 260억 파라미터이지만 추론 시 40억 파라미터(활성 파라미터) 만 사용하여 4B 모델 수준의 속도로 동작
-
MoE(Mixture of Experts) 구조: 일반 대형 FFNN 대신 다수의 소형 FFNN(Expert)을 두고 입력에 따라 일부만 활성화
- 총 128개의 Expert 중 추론 시 8개 선택 활성화
-
공유 Expert(Shared Expert) 1개가 항상 활성화: 일반 지식 처리를 담당하며 크기가 다른 Expert의 3배
- Router가 입력 토큰마다 Expert 선택 확률을 생성하여 라우팅, 선택된 Expert의 처리 결과에 확률 가중치 적용
- 전체 파라미터는 메모리에 로드되나, 실제 연산에는 8개 + 공유 1개 Expert만 사용 → 나머지 119개는 대기 상태
Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)
Per-Layer Embeddings (PLE)
- 모델 내부가 아닌 각 레이어별 별도 임베딩 룩업 테이블을 추가하여 소형 기기에서 VRAM 사용 최소화
- E2B 기준: 262,144개 토큰 × 35레이어 × 256차원의 PLE 테이블 → 플래시 메모리에 저장
- 추론 시작 시 입력 토큰의 레이어별 임베딩을 한 번만 조회 → 이후 각 레이어에서 재조회 불필요
- 각 디코더 블록 사이에서 게이팅 함수로 임베딩 가중치를 결정한 후, 원래 임베딩 크기로 투영(E2B: 256→1536, E4B: 256→2560)
- 투영된 임베딩을 정규화 후 이전 디코더 블록 출력과 합산 → 모델이 토큰 의미를 지속적으로 참조 가능
- "E"는 PLE를 제외한 유효 파라미터(effective parameters) 를 의미
오디오 인코더
- 소형 모델(E2B·E4B)에만 탑재되며 자동 음성 인식·번역 등에 활용
- 오디오 처리 3단계:
-
특징 추출: 원시 오디오 → 멜-스펙트로그램(mel-spectrogram) (시간 × 주파수 2D 표현)
-
청크 그룹화: 멜 특징을 청크 단위로 묶어 토큰 시퀀스 출발점 설정
-
다운샘플링: 2개의 2D 합성곱 레이어로 시퀀스 길이 단축, 소프트 토큰 생성
- 오디오 인코더로 Conformer 사용: 표준 Transformer 인코더에 합성곱 모듈을 추가한 구조
- Conformer 출력 임베딩도 비전 인코더와 마찬가지로 선형 투영을 통해 Gemma 4의 임베딩 공간에 맞게 변환