- 순수 C에서 아기 Llama 2 모델을 추론할 수 있습니다.
- 이 코드는 Llama 2 LLM 아키텍처를 PyTorch에서 훈련하고 가중치를 원시 이진 파일로 저장할 수 있게 해줍니다.
- 그런 다음 C 파일에 가중치를 로드할 수 있습니다.
- C 파일은 상당한 크기의 모델을 매우 빠른 속도로 실행할 수 있습니다.
- 이 프로젝트는 주말 프로젝트로서 제작용 라이브러리가 아닙니다.
- 사전 훈련된 모델을 다운로드하여 C에서 실행할 수 있습니다.
- C 코드는 원시 토큰을 스트리밍하며, 간단한 래퍼를 사용하여 텍스트로 변환할 수 있습니다.
- C 코드는 M1 MacBook Air에서 약 100 토큰/초의 속도로 실행됩니다.
- C 코드의 출력은 모델을 기반으로 생성된 텍스트입니다.
- 이 프로젝트는 특정 응용 프로그램에 초점을 맞추며, 동일한 아키텍처를 처음부터 훈련합니다.
- 소스 데이터 세트를 다운로드하고 사전 토큰화한 다음 모델을 훈련할 수 있습니다.
- 하이퍼파라미터를 조정하여 더 나은 모델을 만들 수 있습니다.
- 비교를 위해 PyTorch 추론 스크립트도 실행할 수 있습니다.
- 제공된 테스트 스크립트를 사용하여 자세한 테스트를 수행할 수 있습니다.
- 이 프로젝트에는 PyTorch 훈련에서 model.bin 파일과 model.ckpt 파일이 필요합니다.
- 텍스트에는 몇 가지 할 일과 질문이 언급되어 있습니다.
- 이 프로젝트는 MIT 라이선스로 제공됩니다.