Zyphra Zamba2-7B, Llama3를 뛰어넘는 소형 언어 모델 공개

(zyphra.com)

7P by GN⁺ 8달전 | ★ favorite | 댓글 1개

Zamba2-7B는 Mistral-7B, Gemma-7B, Llama3-8B 등 현재 주요 7B 모델 대비 평가 벤치마크 성능과 추론 효율성에서 SOTA를 달성함
Zamba2-7B는 첫 토큰 생성까지 25% 더 빠르고, 초당 토큰 수는 20% 향상되었으며, Llama3-8B 등에 비해 메모리 사용량이 크게 감소하는 등 추론 효율성이 매우 뛰어남

Zamba1-7B 대비 Zamba2-7B 아키텍처 개선사항

Mamba1 블록이 Mamba2 블록으로 대체됨
단일 공유 어텐션 블록 대신 네트워크 전체에 ABAB 패턴으로 인터리브된 2개의 공유 어텐션 블록 사용
각 공유 MLP 블록에 LoRA 프로젝터를 적용하여 깊이에 따른 공유 레이어 호출마다 MLP를 특화할 수 있음
Apache 2.0 라이선스로 모델 가중치를 오픈 소스로 공개함

Zamba2-7B 언어 모델링 평가 세트 성능

Zamba2는 지연 시간과 생성 속도를 고려할 때 표준 언어 모델링 평가 세트에서 매우 우수한 성능을 보임
8B 이하 소형 언어 모델 중 품질과 성능 모두 선두를 달리고 있음

Zamba2-7B가 기존 SOTA 모델을 능가하는 이유

새로운 공유 어텐션 아키텍처로 Mamba2 백본에 더 많은 파라미터를 할당할 수 있음. 공유 트랜스포머 블록은 어텐션 연산의 풍부한 시퀀스 간 의존성을 보존함
3조 토큰 사전학습 데이터셋은 Zyda와 적극적으로 필터링 및 중복 제거된 공개 데이터셋의 조합으로 구성되며, 기존 상위 오픈 소스 사전학습 데이터셋 대비 최고 품질을 달성함
별도의 "어닐링" 사전학습 단계에서 1,000억 개 고품질 토큰에 걸쳐 학습률을 급격히 감소시킴. 어닐링 세트는 다양한 고품질 소스에서 수집되어 품질이 엄격히 관리됨

뛰어난 사전학습 및 어닐링 데이터셋 품질 덕분에 Zamba2-7B는 학습 토큰당 성능이 매우 우수하며, 경쟁 모델이 그리는 곡선보다 훨씬 위에 편안히 자리잡고 있음

Zamba 하이브리드 SSM-어텐션 아키텍처

Zamba2-7B는 원래의 Zamba 하이브리드 SSM-어텐션 아키텍처를 활용하고 확장함
핵심 Zamba 아키텍처는 하나 이상의 공유 어텐션 레이어와 인터리브된 Mamba 레이어 백본으로 구성됨 (Zamba1은 1개, Zamba2는 2개의 공유 어텐션 사용)
이 어텐션은 모델의 파라미터 비용을 최소화하기 위해 공유 가중치를 가짐
입력의 원래 모델 임베딩을 이 어텐션 블록에 연결하면 깊이에 걸쳐 정보 유지가 향상되어 성능이 개선되는 것으로 보임
Zamba2 아키텍처는 공유 MLP에 LoRA 프로젝션 행렬을 적용하여 각 블록이 파라미터 오버헤드를 작게 유지하면서 고유한 위치에 약간 특화될 수 있도록 추가 표현력을 얻음

SOTA 추론 효율성 달성 요인

Mamba2 블록은 매우 효율적이며 동일한 파라미터의 트랜스포머 블록에 비해 처리량이 약 4배임
Mamba 블록은 저장할 작은 은닉 상태만 있으면 되고 KV-캐시가 필요 없으므로 공유 어텐션 블록 호출에 대해서만 KV 상태를 저장하면 됨
모델 크기를 현대 하드웨어에서 병렬화에 매우 적합하도록 선택함 (예: GPU의 여러 스트리밍 멀티프로세서, CPU의 멀티코어)

Zamba2-7B 학습 및 공개

Zamba2-7B는 Megatron-LM 기반으로 개발된 내부 학습 프레임워크를 사용하여 128개 H100 GPU에서 약 50일 동안 학습됨
Zamba2-7B는 7B 스케일에서 소규모 팀과 적정 예산으로도 최첨단에 도달하고 능가할 수 있음을 보여줌
오픈 소스 라이선스로 공개되어 연구자, 개발자, 기업이 그 기능을 활용할 수 있음
AI 커뮤니티가 Zamba의 독특한 아키텍처를 탐구하고 효율적인 파운데이션 모델의 경계를 계속 밀어붙이기를 기대함

공개된 Zamba2-7B 모델:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Zyphra의 비전

Zyphra 팀은 고급 AI 시스템 대중화, 성능의 최전선에 있는 새로운 아키텍처 탐구, 강력한 모델에 대한 과학적 연구와 이해 발전에 전념하고 있음
이 비전을 공유하는 다른 이들과 협력하기를 기대하고 있음

GN⁺의 의견

Zyphra가 Zamba2를 오픈 소스로 공개한 것은 큰 의미가 있음. 이는 누구나 최첨단 언어 모델을 무료로 사용하고 연구할 수 있게 되었다는 점에서 AI 기술 대중화에 기여할 것임
Zamba2의 새로운 아키텍처는 기존 트랜스포머 기반 모델의 한계를 극복하고 더 효율적인 언어 모델을 만드는 방향을 제시함. 공유 어텐션과 LoRA 프로젝션 등 Zamba만의 독특한 아이디어는 앞으로의 언어 모델 연구에 영감을 줄 것으로 보임
중소규모 팀도 최신 하드웨어를 활용해 SOTA 성능의 대형 언어 모델을 만들 수 있다는 점도 고무적임. 앞으로 다양한 조직의 참여로 파운데이션 모델 개발이 더욱 활발해질 것으로 기대됨
Zamba2의 성능이 실제 애플리케이션에서도 어떻게 발휘될지 지켜볼 필요가 있음. 뛰어난 벤치마크 점수가 곧바로 현실 세계 태스크로 이어지는 것은 아니기 때문. 다양한 분야의 실무자들이 Zamba2를 활용해보고 장단점을 공유하는 것이 중요할 것임

▲

GN⁺ 8달전 [-]

Hacker News 의견

기사에 연결되지 않은 가중치를 찾는 사람들을 위해 링크를 제공함
- 기본 모델: Zyphra/Zamba2-7B
- Instruct 튜닝: Zyphra/Zamba2-7B-Instruct
성능 향상이 데이터셋 개선 덕분인지 아키텍처 덕분인지 궁금함. 이는 비용이 많이 드는 실험일 것임
LLM 릴리스가 벤치마크를 선택적으로 사용하는 것에 피로감을 느낌. SOTA qwen2.5/phi3.5와 비교가 궁금함
- 최신 독립 리더보드를 아는 사람 있는지 질문함. Lmsys와 livebench는 최근 주요 모델을 대부분 건너뜀
Apache 라이선스 모델이 더 많이 나오는 것이 좋음, 특히 다양한 아키텍처와 함께
Mamba2 블록에 대한 이론적 작업의 양에 비해 성능 향상이 매우 미미함
- 주의(attention)가 여전히 중요함
두 개의 주의 헤드를 사용할 때, 각 주의 헤드가 데이터의 다른 측면에 집중하는지 궁금함
- 기억 연구에서 사건의 이중 표현 개념이 있음. 하나는 더 정확한 표현이고, 다른 하나는 더 문맥 가중된 표현임
- LLM에서 주의가 한 헤드는 정확한 표현에, 다른 헤드는 더 거친 정보에 집중하는 시스템을 상상할 수 있음. 그러나 LLM에 대해 잘 알지 못해 이것이 단순한 비유인지 확신할 수 없음
7B가 특별한 이유가 무엇인지 궁금함. 왜 8B, 9B, 11.234B가 아닌지 질문함. 7B가 2의 거듭제곱으로 해석되는 것인지 궁금함
또 다른 날, AI에서 또 다른 세계 기록이 세워짐
- Sergey Bubka가 생각남. 그는 남자 장대높이뛰기 세계 기록을 35번 경신했음
이 모델이 어떤 언어를 지원하는지에 대한 아이디어가 있는지 질문함

답변달기