25P by xguru 2023-04-03 | favorite | 댓글 1개
  • GPL 라이센스인 LLaMA 코드 대신, nanoGPT 기반으로 Apache 2.0 라이센스로 완전히 별도 개발된 오픈소스
  • bolierplate 없이 단일 파일로 구현되어 심플하며, 기존 모델과 수치적으로 동일
  • FlashAttention, 양자화, LoRA 파인튜닝, 사전 학습등을 지원
  • 소비자용 하드웨어에서 실행되도록 최적화

nanoGPT 는 Tesla의 AI 헤드였던 Andrej Karpathy가 minGPT를 재작성한 코드입니다.
nanoGPT - 중간규모 GPT를 가장 빠르게 훈련/미세조정하기 위한 오픈소스

FlashAttention