- AMD는 첫 번째 소형 언어 모델 AMD-135M을 공개함
- 이 모델은 AMD Instinct™ MI250 가속기를 사용하여 6700억 개의 토큰으로 훈련됨
- 두 가지 모델로 나뉨: AMD-Llama-135M과 AMD-Llama-135M-code
- AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨
- AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨
- 이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공
-
Speculative Decoding 으로 추론 성능 최적화
- 대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함
- 이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임
- 추측 디코딩의 도입으로 이 문제를 해결함
- 작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함
- 이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴
-
추론 성능 가속
- AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트함
- MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함
- 특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함
-
다음 단계
- AMD는 오픈 소스 참조 구현을 제공하여 AI 커뮤니티 내에서 혁신을 촉진
- AMD-135M에 대한 자세한 내용은 기술 블로그에서 확인 가능
- AMD Github 저장소에서 코드에 접근 가능
- Hugging Face Model Card에서 모델 파일 다운로드 가능
- AMD Developer Cloud에서 Instinct 가속기 카드 접근 신청 가능
GN⁺의 정리
- AMD의 첫 번째 소형 언어 모델 AMD-135M은 AI 커뮤니티에 중요한 발전을 가져옴
- 추측 디코딩을 통해 추론 성능을 크게 향상시킴
- 오픈 소스 참조 구현을 통해 개발자들이 모델을 재현하고 다른 SLM 및 LLM을 훈련할 수 있도록 지원함
- AI 분야에서 혁신을 촉진하고 더 포괄적이고 윤리적인 기술 발전을 목표로 함