Unsloth : Finetune Llama 3 with 2x 빠르고 6x 긴 Context, 68% 적은 VRAM

(unsloth.ai)

• 대형 언어 모델을 미세 조정하는 도구인 언슬로스는 이제 메타의 최신 라마 3 모델을 지원하여 플래시 어텐션 2(FA2) 및 허깅 페이스(HF)에 비해 2배 더 빠른 미세 조정과 VRAM 사용을 63% 줄일 수 있다.

• 언슬로스를 사용하면 라마 3의 70B 버전이 1.8배 빠르고 VRAM을 68% 적게 사용하여 미세 조정 중 훨씬 더 긴 컨텍스트 길이를 허용합니다. 이는 질문 답변이나 텍스트 생성과 같이 광범위한 맥락이 필요한 작업에 특히 유용하다.

• 언슬로스는 또한 라마 3 모델의 4비트 양자화를 지원하여 4배 더 빠른 다운로드와 메모리 요구 사항을 줄입니다. 라마 3의 70B 인스트럭트 및 베이스 버전 모두에 대한 사전 양자화된 4비트 모델은 허깅 페이스 페이지에서 사용할 수 있다.

• 또한 언슬로스는 토큰타이저에 BOS 토큰이 없고 기본 모델에 훈련되지 않은 토큰이 있는 것과 같은 라마 3의 특정 기벽과 "벌레"를 다룬다. 언슬로스는 미세 조정 중에 이러한 문제를 자동으로 해결하여 정확하고 효율적인 교육을 보장합니다.