Deepseek V3는 과적합 여부를 테스트하는 벤치마크에서 좋지 않은 성능을 보였음

(github.com/cpldcpu)

최근 Deepseek (중국의 AI 회사)가 MMLU(영문), Human-Eval-Mul(코딩), AIME 2024(수학) 등 특정 LLM 벤치마크들에서 GPT-4o 0513을 능가하는 충격적인 오픈 소스 모델 DeepSeek V3를 공개함
이는 기존 폐쇄 소스 (Closed Source) LLM (예: OpenAI의 GPT, Anthropic의 Claude) 들을 능가하는 결과이기에 많은 관심을 끌고 있음

MisguidedAttention은 "LLM이 특정 벤치마크에 과적합 (Overfitting) 되었는지를 확인하는 벤치마크" 임
MisguidedAttention은 기존의 벤치마크 질문들을 약간 변형을 거친 질문들로 LLM의 과적합을 테스트함
예를 들어, 기존의 벤치마크는 "고장난 기차가 선로를 달리고 있다. 철도의 각 선로 위에는 5명, 1명이 묶여있다. 레버를 당길 경우 5명은 살지만 1명은 죽고, 레버를 당기지 않고 가만히 있으면 5명이 죽게 된다. 당신은 레버를 당길 것인가?" 라는 "트롤리 딜레마"를 질문하지만, MisdguidedAttention은 "철도의 각 선로 위에는 5구의 시체와, 살아있는 사람 1명이 묶여있다." 로 변형한 "노 트롤리 딜레마"를 질문해 LLM이 명확한 답변을 하는지를 확인함
Deepseek V3는 MisguidedAttention에서 0.22점을 기록했으며, 폐쇄 소스 LLM인 claude-3.5-sonnet-new의 0.45점, gpt4-32k의 0.46점에 비해 낮은 점수임

그러나 또 다른 폐쇄 소스 LLM인 gemini-pro-1.5의 0.21점보다는 높음
오픈소스 모델 중에서는 llama 기반 파인 튜닝 모델 ‘hermes-3-llama-3.1-405’가 0.27점으로 가장 높았으며, DeepSeek V3의 0.22점과 비교했을 때 큰 차이는 아님
과적합을 테스트하는 벤치마크에서 낮은 점수를 받았지만, 오픈 소스 모델이라는 점에서 여전히 큰 의의가 있다는 의견이 있음

중국에서 만들어서 그런지 중국에서 민감한 부분들은 제대로 답변을 못하더라구요

중국의 모든 서비스가 그런 경향이 있는 것 같습니다. 옳고 그름을 떠나서 그냥 관련 주제가 나오는 것을 경계하는 것 같아요.