6P by neo 2달전 | favorite | 댓글 1개
  • AMD는 첫 번째 소형 언어 모델 AMD-135M을 공개함
  • 이 모델은 AMD Instinct™ MI250 가속기를 사용하여 6700억 개의 토큰으로 훈련됨
  • 두 가지 모델로 나뉨: AMD-Llama-135M과 AMD-Llama-135M-code
    • AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨
    • AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨
    • 이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공
  • Speculative Decoding 으로 추론 성능 최적화
    • 대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함
    • 이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임
    • 추측 디코딩의 도입으로 이 문제를 해결함
    • 작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함
    • 이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴
  • 추론 성능 가속
    • AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트함
    • MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함
    • 특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함
  • 다음 단계
    • AMD는 오픈 소스 참조 구현을 제공하여 AI 커뮤니티 내에서 혁신을 촉진
    • AMD-135M에 대한 자세한 내용은 기술 블로그에서 확인 가능
    • AMD Github 저장소에서 코드에 접근 가능
    • Hugging Face Model Card에서 모델 파일 다운로드 가능
    • AMD Developer Cloud에서 Instinct 가속기 카드 접근 신청 가능

GN⁺의 정리

  • AMD의 첫 번째 소형 언어 모델 AMD-135M은 AI 커뮤니티에 중요한 발전을 가져옴
  • 추측 디코딩을 통해 추론 성능을 크게 향상시킴
  • 오픈 소스 참조 구현을 통해 개발자들이 모델을 재현하고 다른 SLM 및 LLM을 훈련할 수 있도록 지원함
  • AI 분야에서 혁신을 촉진하고 더 포괄적이고 윤리적인 기술 발전을 목표로 함

범용 인공지능으로 발전하려면, 차원적으로 도약할 계기가 있어야 하는데, 그런 계기가. 바로 교육입니다.