# AMD, 첫 번째 소형 언어 모델 AMD-135M 공개

> Clean Markdown view of GeekNews topic #16980. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16980](https://news.hada.io/topic?id=16980)
- GeekNews Markdown: [https://news.hada.io/topic/16980.md](https://news.hada.io/topic/16980.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-29T10:52:10+09:00
- Updated: 2024-09-29T10:52:10+09:00
- Original source: [community.amd.com](https://community.amd.com/t5/ai/amd-unveils-its-first-small-language-model-amd-135m/ba-p/711368)
- Points: 6
- Comments: 1

## Topic Body

- AMD는 첫 번째 소형 언어 모델 AMD-135M을 공개함  
- 이 모델은 AMD Instinct™ MI250 가속기를 사용하여 6700억 개의 토큰으로 훈련됨  
- 두 가지 모델로 나뉨: AMD-Llama-135M과 AMD-Llama-135M-code  
  - AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨  
  - AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨  
  - 이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공  
- **Speculative Decoding 으로 추론 성능 최적화**  
  - 대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함  
  - 이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임  
  - 추측 디코딩의 도입으로 이 문제를 해결함  
  - 작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함  
  - 이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴  
- **추론 성능 가속**  
  - AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트함  
  - MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함  
  - 특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함  
- **다음 단계**  
  - AMD는 오픈 소스 참조 구현을 제공하여 AI 커뮤니티 내에서 혁신을 촉진  
  - AMD-135M에 대한 자세한 내용은 기술 블로그에서 확인 가능  
  - AMD Github 저장소에서 코드에 접근 가능  
  - Hugging Face Model Card에서 모델 파일 다운로드 가능  
  - AMD Developer Cloud에서 Instinct 가속기 카드 접근 신청 가능  
  
### GN⁺의 정리  
- AMD의 첫 번째 소형 언어 모델 AMD-135M은 AI 커뮤니티에 중요한 발전을 가져옴  
- 추측 디코딩을 통해 추론 성능을 크게 향상시킴  
- 오픈 소스 참조 구현을 통해 개발자들이 모델을 재현하고 다른 SLM 및 LLM을 훈련할 수 있도록 지원함  
- AI 분야에서 혁신을 촉진하고 더 포괄적이고 윤리적인 기술 발전을 목표로 함

## Comments



### Comment 29473

- Author: comsect62
- Created: 2024-09-30T05:51:32+09:00
- Points: 1

범용 인공지능으로 발전하려면, 차원적으로 도약할 계기가 있어야 하는데, 그런 계기가. 바로 교육입니다.
