16P by haebom 7달전 | favorite | 댓글 1개

테스트한 모델

  • 7B 규모 14개 모델
  • 13B 규모 7개 모델
  • 20B 규모 4개 모델
  • 70B 규모 11개 모델
  • GPT-3.5 Turbo
  • GPT-4

레딧의 Wolfram Ravenwolf가 작성한 테스트 결과글을 허락 받고 한국어로 번역, 4 German data protection trainings 평가 방법으로 각 모델을 평가하고 의견을 남긴 것

간단히 요약 하면, 7~13B 모델 중, 효용감이 느껴질만한 모델은 거의 존재하지 않음. 70B는 넘어야 의미 있는 결과들이 나오기 시작. 속도면에서는 로컬 LLM의 속도가 압도적.

다만, GPT-4의 성능에는 그 무엇도 근접조차 하지 못함.

GPT-4 우주인 하사說을 밀어보려고 합니다..