LLM 비교/테스트: 39개 모델 테스트(7B~70B + ChatGPT/GPT-4)
(slashpage.com)테스트한 모델
- 7B 규모 14개 모델
- 13B 규모 7개 모델
- 20B 규모 4개 모델
- 70B 규모 11개 모델
- GPT-3.5 Turbo
- GPT-4
레딧의 Wolfram Ravenwolf가 작성한 테스트 결과글을 허락 받고 한국어로 번역, 4 German data protection trainings 평가 방법으로 각 모델을 평가하고 의견을 남긴 것
간단히 요약 하면, 7~13B 모델 중, 효용감이 느껴질만한 모델은 거의 존재하지 않음. 70B는 넘어야 의미 있는 결과들이 나오기 시작. 속도면에서는 로컬 LLM의 속도가 압도적.
다만, GPT-4의 성능에는 그 무엇도 근접조차 하지 못함.