Llama 2 Chat 70B, 모델 평가에서 ChatGPT(3.5)를 능가

xguru · 2023-07-31T10:17:01+09:00

Instruction-Following 언어 모델을 자동으로 평가하는 AlpacaEval Leaderboard 기준 GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEval 은 AlpacaFarm 평가 세트를 이용하여 GPT-4 가 응답한 내용과 비교하여 자동으로 평가를 진행

(tatsu-lab.github.io)

10P by xguru 2023-07-31 | ★ favorite | 댓글과 토론

Instruction-Following 언어 모델을 자동으로 평가하는 AlpacaEval Leaderboard 기준
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEval 은 AlpacaFarm 평가 세트를 이용하여 GPT-4 가 응답한 내용과 비교하여 자동으로 평가를 진행

Llama 2 Chat 70B, 모델 평가에서 ChatGPT(3.5)를 능가

함께 보면 좋은 글 β

댓글과 토론