# Zyphra Zamba2-7B, Llama3를 뛰어넘는 소형 언어 모델 공개

> Clean Markdown view of GeekNews topic #17262. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17262](https://news.hada.io/topic?id=17262)
- GeekNews Markdown: [https://news.hada.io/topic/17262.md](https://news.hada.io/topic/17262.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-16T10:03:07+09:00
- Updated: 2024-10-16T10:03:07+09:00
- Original source: [zyphra.com](https://www.zyphra.com/post/zamba2-7b)
- Points: 7
- Comments: 1

## Topic Body

- Zamba2-7B는 Mistral-7B, Gemma-7B, Llama3-8B 등 현재 주요 7B 모델 대비 평가 벤치마크 성능과 추론 효율성에서 SOTA를 달성함  
- Zamba2-7B는 첫 토큰 생성까지 25% 더 빠르고, 초당 토큰 수는 20% 향상되었으며, Llama3-8B 등에 비해 메모리 사용량이 크게 감소하는 등 추론 효율성이 매우 뛰어남  
  
### Zamba1-7B 대비 Zamba2-7B 아키텍처 개선사항  
- Mamba1 블록이 Mamba2 블록으로 대체됨  
- 단일 공유 어텐션 블록 대신 네트워크 전체에 ABAB 패턴으로 인터리브된 2개의 공유 어텐션 블록 사용  
- 각 공유 MLP 블록에 LoRA 프로젝터를 적용하여 깊이에 따른 공유 레이어 호출마다 MLP를 특화할 수 있음  
- Apache 2.0 라이선스로 모델 가중치를 오픈 소스로 공개함  
  
### Zamba2-7B 언어 모델링 평가 세트 성능  
- Zamba2는 지연 시간과 생성 속도를 고려할 때 표준 언어 모델링 평가 세트에서 매우 우수한 성능을 보임  
- 8B 이하 소형 언어 모델 중 품질과 성능 모두 선두를 달리고 있음  
  
### Zamba2-7B가 기존 SOTA 모델을 능가하는 이유  
1. 새로운 공유 어텐션 아키텍처로 Mamba2 백본에 더 많은 파라미터를 할당할 수 있음. 공유 트랜스포머 블록은 어텐션 연산의 풍부한 시퀀스 간 의존성을 보존함  
2. 3조 토큰 사전학습 데이터셋은 Zyda와 적극적으로 필터링 및 중복 제거된 공개 데이터셋의 조합으로 구성되며, 기존 상위 오픈 소스 사전학습 데이터셋 대비 최고 품질을 달성함   
3. 별도의 "어닐링" 사전학습 단계에서 1,000억 개 고품질 토큰에 걸쳐 학습률을 급격히 감소시킴. 어닐링 세트는 다양한 고품질 소스에서 수집되어 품질이 엄격히 관리됨  
  
뛰어난 사전학습 및 어닐링 데이터셋 품질 덕분에 Zamba2-7B는 학습 토큰당 성능이 매우 우수하며, 경쟁 모델이 그리는 곡선보다 훨씬 위에 편안히 자리잡고 있음  
  
### Zamba 하이브리드 SSM-어텐션 아키텍처  
- Zamba2-7B는 원래의 Zamba 하이브리드 SSM-어텐션 아키텍처를 활용하고 확장함  
- 핵심 Zamba 아키텍처는 하나 이상의 공유 어텐션 레이어와 인터리브된 Mamba 레이어 백본으로 구성됨 (Zamba1은 1개, Zamba2는 2개의 공유 어텐션 사용)  
- 이 어텐션은 모델의 파라미터 비용을 최소화하기 위해 공유 가중치를 가짐  
- 입력의 원래 모델 임베딩을 이 어텐션 블록에 연결하면 깊이에 걸쳐 정보 유지가 향상되어 성능이 개선되는 것으로 보임  
- Zamba2 아키텍처는 공유 MLP에 LoRA 프로젝션 행렬을 적용하여 각 블록이 파라미터 오버헤드를 작게 유지하면서 고유한 위치에 약간 특화될 수 있도록 추가 표현력을 얻음  
  
### SOTA 추론 효율성 달성 요인  
1. Mamba2 블록은 매우 효율적이며 동일한 파라미터의 트랜스포머 블록에 비해 처리량이 약 4배임  
2. Mamba 블록은 저장할 작은 은닉 상태만 있으면 되고 KV-캐시가 필요 없으므로 공유 어텐션 블록 호출에 대해서만 KV 상태를 저장하면 됨  
3. 모델 크기를 현대 하드웨어에서 병렬화에 매우 적합하도록 선택함 (예: GPU의 여러 스트리밍 멀티프로세서, CPU의 멀티코어)  
  
### Zamba2-7B 학습 및 공개  
- Zamba2-7B는 Megatron-LM 기반으로 개발된 내부 학습 프레임워크를 사용하여 128개 H100 GPU에서 약 50일 동안 학습됨  
- Zamba2-7B는 7B 스케일에서 소규모 팀과 적정 예산으로도 최첨단에 도달하고 능가할 수 있음을 보여줌  
- 오픈 소스 라이선스로 공개되어 연구자, 개발자, 기업이 그 기능을 활용할 수 있음  
- AI 커뮤니티가 Zamba의 독특한 아키텍처를 탐구하고 효율적인 파운데이션 모델의 경계를 계속 밀어붙이기를 기대함  
  
공개된 Zamba2-7B 모델:  
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct  
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B  
- Pure PyTorch: https://github.com/Zyphra/Zamba2  
  
### Zyphra의 비전  
- Zyphra 팀은 고급 AI 시스템 대중화, 성능의 최전선에 있는 새로운 아키텍처 탐구, 강력한 모델에 대한 과학적 연구와 이해 발전에 전념하고 있음  
- 이 비전을 공유하는 다른 이들과 협력하기를 기대하고 있음  
  
### GN⁺의 의견  
- Zyphra가 Zamba2를 오픈 소스로 공개한 것은 큰 의미가 있음. 이는 누구나 최첨단 언어 모델을 무료로 사용하고 연구할 수 있게 되었다는 점에서 AI 기술 대중화에 기여할 것임   
- Zamba2의 새로운 아키텍처는 기존 트랜스포머 기반 모델의 한계를 극복하고 더 효율적인 언어 모델을 만드는 방향을 제시함. 공유 어텐션과 LoRA 프로젝션 등 Zamba만의 독특한 아이디어는 앞으로의 언어 모델 연구에 영감을 줄 것으로 보임  
- 중소규모 팀도 최신 하드웨어를 활용해 SOTA 성능의 대형 언어 모델을 만들 수 있다는 점도 고무적임. 앞으로 다양한 조직의 참여로 파운데이션 모델 개발이 더욱 활발해질 것으로 기대됨  
- Zamba2의 성능이 실제 애플리케이션에서도 어떻게 발휘될지 지켜볼 필요가 있음. 뛰어난 벤치마크 점수가 곧바로 현실 세계 태스크로 이어지는 것은 아니기 때문. 다양한 분야의 실무자들이 Zamba2를 활용해보고 장단점을 공유하는 것이 중요할 것임

## Comments


### Comment 30094

- Author: neo
- Created: 2024-10-16T10:03:08+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41842975) 
- 기사에 연결되지 않은 가중치를 찾는 사람들을 위해 링크를 제공함
  - 기본 모델: [Zyphra/Zamba2-7B](https://huggingface.co/Zyphra/Zamba2-7B)
  - Instruct 튜닝: [Zyphra/Zamba2-7B-Instruct](https://huggingface.co/Zyphra/Zamba2-7B-Instruct)

- 성능 향상이 데이터셋 개선 덕분인지 아키텍처 덕분인지 궁금함. 이는 비용이 많이 드는 실험일 것임

- LLM 릴리스가 벤치마크를 선택적으로 사용하는 것에 피로감을 느낌. SOTA qwen2.5/phi3.5와 비교가 궁금함
  - 최신 독립 리더보드를 아는 사람 있는지 질문함. Lmsys와 livebench는 최근 주요 모델을 대부분 건너뜀

- Apache 라이선스 모델이 더 많이 나오는 것이 좋음, 특히 다양한 아키텍처와 함께

- Mamba2 블록에 대한 이론적 작업의 양에 비해 성능 향상이 매우 미미함
  - 주의(attention)가 여전히 중요함

- 두 개의 주의 헤드를 사용할 때, 각 주의 헤드가 데이터의 다른 측면에 집중하는지 궁금함
  - 기억 연구에서 사건의 이중 표현 개념이 있음. 하나는 더 정확한 표현이고, 다른 하나는 더 문맥 가중된 표현임
  - LLM에서 주의가 한 헤드는 정확한 표현에, 다른 헤드는 더 거친 정보에 집중하는 시스템을 상상할 수 있음. 그러나 LLM에 대해 잘 알지 못해 이것이 단순한 비유인지 확신할 수 없음

- 7B가 특별한 이유가 무엇인지 궁금함. 왜 8B, 9B, 11.234B가 아닌지 질문함. 7B가 2의 거듭제곱으로 해석되는 것인지 궁금함

- 또 다른 날, AI에서 또 다른 세계 기록이 세워짐
  - Sergey Bubka가 생각남. 그는 남자 장대높이뛰기 세계 기록을 35번 경신했음

- 이 모델이 어떤 언어를 지원하는지에 대한 아이디어가 있는지 질문함