33P by xguru 2023-03-19 | favorite | 댓글 1개
  • 스탠포드의 Alpaca 모델 학습방식과 동일한 방식으로 학습
  • 백본모델로 Polyglot-ko 5.8B 와 LLaMA 7B 를 이용
    • LLaMA는 한국어 데이터셋 학습이 부족해서 한국어 성능이 낮음, 한국어 모델을 추가로 학습
  • LLaMA의 52k 명령어 데이터 셋은 DeepL API로 번역

오... 정말 이 생태계가 엄청나게 빠른 속도로 발전하고 있네요. 기존 Transformer 모델도 한국어 현지화 모델과 범용 모델간의 성능차이가 엄청 크던데, 좋은 오픈소스네요.