8P by xguru 2023-05-16 | favorite | 댓글 2개
  • 데이터셋 생성부터 토큰화, 프롬프트 튜닝, LoRA 및 RLHF 까지 전체 파이프라인을 구성한 오픈소스
  • 사전학습된 Open-LLama-V2-pretrain 모델도 Hugging Face에 공개
  • FastChat 평가방법에 의하면 GPT-3.5와 비교시 약 89%의 성능을 낸다고(중국어로된 질문에 대해)
  • 학습 스피드는 3620 토큰/s 로 오리지널 LLama의 3370 보다 조금 더 빠름(7B 모델)
  • 500B 토큰으로 학습한다면 38300 GPU 시간이 필요
    • 구글 클라우드에서 8개의 A100-80G Spot GPU를 한시간 사용시 12.6 달러
    • 전체 비용은 60300 달러

4090 같은 일반소비자용 gpu로 트레이닝 하면 얼마나 걸릴지 궁금하네요

들어본 이름인데..? 해서 찾아보니
OpenLLaMA - LLaMA의 개방형 복제본
이것과는 이름에 대쉬 하나 차이인데, 내용은 전혀 다른 프로젝트네요.