1P by neo 2023-07-24 | favorite | 댓글 1개
  • 순수 C에서 아기 Llama 2 모델을 추론할 수 있습니다.
  • 이 코드는 Llama 2 LLM 아키텍처를 PyTorch에서 훈련하고 가중치를 원시 이진 파일로 저장할 수 있게 해줍니다.
  • 그런 다음 C 파일에 가중치를 로드할 수 있습니다.
  • C 파일은 상당한 크기의 모델을 매우 빠른 속도로 실행할 수 있습니다.
  • 이 프로젝트는 주말 프로젝트로서 제작용 라이브러리가 아닙니다.
  • 사전 훈련된 모델을 다운로드하여 C에서 실행할 수 있습니다.
  • C 코드는 원시 토큰을 스트리밍하며, 간단한 래퍼를 사용하여 텍스트로 변환할 수 있습니다.
  • C 코드는 M1 MacBook Air에서 약 100 토큰/초의 속도로 실행됩니다.
  • C 코드의 출력은 모델을 기반으로 생성된 텍스트입니다.
  • 이 프로젝트는 특정 응용 프로그램에 초점을 맞추며, 동일한 아키텍처를 처음부터 훈련합니다.
  • 소스 데이터 세트를 다운로드하고 사전 토큰화한 다음 모델을 훈련할 수 있습니다.
  • 하이퍼파라미터를 조정하여 더 나은 모델을 만들 수 있습니다.
  • 비교를 위해 PyTorch 추론 스크립트도 실행할 수 있습니다.
  • 제공된 테스트 스크립트를 사용하여 자세한 테스트를 수행할 수 있습니다.
  • 이 프로젝트에는 PyTorch 훈련에서 model.bin 파일과 model.ckpt 파일이 필요합니다.
  • 텍스트에는 몇 가지 할 일과 질문이 언급되어 있습니다.
  • 이 프로젝트는 MIT 라이선스로 제공됩니다.
Hacker News 의견
  • 앤드레이는 OpenAI로 급여를 받으면서 Apple, Facebook 및 오픈 소스 운동을 도와주고 있습니다.
  • 원래의 체크포인트는 MacBook Air M1에서 예상보다 빠르게 실행됩니다.
  • 새로운 44M 모델이 훈련 중입니다.
  • Llama 모델은 Emscripten을 통해 브라우저에서 실행됩니다.
  • 로컬 기반 LLM은 로컬 추론을 위한 웹앱 구축에 흥미로운 기술입니다.
  • 코드는 WASI SDK로 깔끔하게 빌드되며 Wasm 런타임에서 실행됩니다.
  • 자세한 내용은 앤드레이의 트위터에서 확인할 수 있습니다.
  • 신경망 실행에 필요한 메모리 요구 사항이 논의됩니다.
  • Llama-2는 창의적인 작업에 사용할 수 없음이 밝혀졌습니다.
  • 산업은 각 출시 모델에 대해 별도의 소스 코드로 이동할 가능성이 있습니다.
  • "한 파일 안에" 또는 "헤더만"의 매력에 대해 논의되었습니다.
  • yolo를 줄이기 위해 더 나은 테스트를 만드는 것에 대한 유머러스한 코멘트가 있습니다.