AI 시스템 평가 방식의 약점을 밝힌 연구
(oii.ox.ac.uk)- 전 세계 42명의 연구진이 참여한 옥스퍼드 인터넷 연구소(OII) 주도의 대규모 연구가 대형 언어모델(LLM) 평가에 사용되는 벤치마크의 과학적 엄밀성이 부족함을 확인
- 445개의 AI 벤치마크를 검토한 결과, 절반 이상이 개념 정의가 불명확하거나 분석 방법이 약해 신뢰할 수 있는 결론 도출이 어려운 구조로 나타남
- 검토된 연구 중 16%만이 통계적 방법을 사용했으며, ‘추론’이나 ‘무해성’ 같은 추상적 개념을 명확히 정의하지 않은 경우가 많음
- 연구진은 정의 명확화, 대표성 있는 평가, 통계적 분석 강화 등을 포함한 8가지 개선 권고안을 제시하고, 이를 위한 Construct Validity Checklist 도구를 공개
- AI 벤치마크의 과학적 타당성 확보가 AI 기술 발전과 규제 신뢰성의 핵심 과제로 부상
연구 개요
- 옥스퍼드 인터넷 연구소(OII)가 주도하고 EPFL, Stanford, TUM, UC Berkeley, Yale 등 주요 기관이 참여한 연구임
- 논문 제목은 Measuring What Matters: Construct Validity in Large Language Model Benchmarks이며, NeurIPS 2025 학회 발표 예정
- 연구는 445개의 AI 벤치마크를 체계적으로 검토해 평가 기준의 과학적 타당성을 분석
주요 발견
-
통계적 엄밀성 부족: 검토된 연구 중 16%만이 통계적 비교 방법을 사용
- 모델 간 성능 차이나 우월성 주장이 우연에 의한 결과일 가능성 존재
-
모호하거나 논쟁적인 정의: 약 절반의 벤치마크가 ‘추론’, ‘무해성’ 등 추상 개념을 명확히 정의하지 않음
- 명확한 개념 정의 부재로 평가 목적과 실제 측정 간 불일치 발생
문제 사례
- 형식 규칙 혼동: 단순 논리 퍼즐을 풀면서 복잡한 형식으로 답을 제출하도록 요구할 경우, 정답을 맞혀도 형식 오류로 실패 처리됨
- 취약한 성능: 간단한 수학 문제에는 강하지만 숫자나 문장 구조가 조금만 바뀌면 실패하는 사례 존재
- 근거 없는 주장: 의료 시험 문제에서 높은 점수를 얻었다고 해서 의사 수준의 전문성을 가진 것으로 오해될 수 있음
개선 권고안
- 연구진은 문제 해결이 가능하다고 보고, 심리측정학·의학 분야의 검증 방법론을 참고한 8가지 권고안을 제시
- 정의 및 통제(Define and isolate) : 측정 개념을 명확히 정의하고 관련 없는 요인을 통제
- 대표성 있는 평가(Build representative evaluations) : 실제 환경을 반영하고 목표 기술의 전체 범위를 포함
- 분석 강화(Strengthen analysis and justification) : 통계적 불확실성 보고, 오류 분석 수행, 벤치마크의 타당성 근거 제시
- Construct Validity Checklist를 통해 연구자·개발자·규제기관이 벤치마크의 설계 타당성을 사전에 점검 가능
연구 의의
- 벤치마크는 AI 연구 방향, 모델 경쟁, 정책 및 규제 기준을 결정하는 핵심 도구로 작용
- 과학적 근거가 약한 벤치마크는 AI 성능과 안전성에 대한 오해를 초래할 위험 존재
- 이번 연구는 AI 평가의 신뢰성 확보를 위한 국제 협력 모델로 제시됨
기타 정보
- 논문은 2025년 12월 2~7일 NeurIPS 2025에서 발표 예정
- 연구 지원은 Clarendon 장학금, ESRC, EPSRC, Meta LLM Evaluation Research Grant 등 다양한 기관에서 이루어짐
- OII는 지난 25년간 인공지능, 디지털 플랫폼, 자율 시스템 등 신기술의 사회적 영향을 연구해 온 기관임
Hacker News 의견
-
나는 연구소에서 LLM 벤치마크와 인간 평가를 담당하고 있음
솔직히 말해 지금 이 분야는 완전한 무법지대 수준임. 제대로 된 해결책이 없고, 연구자들도 벤치마킹에만 매달리기 싫어함
결국 제품 수준에서는 전통적인 A/B 테스트가 가장 현실적인 방법임. 직접적인 지표를 대규모로 측정할 수 있기 때문임
물론 ‘benchmarketing’ 같은 것도 있지만, 대부분은 진심으로 좋은 벤치마크를 만들고자 함. 다만 그게 너무 어렵거나 불가능할 뿐임- 나는 하이퍼스케일러에서 플랫폼 인프라를 담당하는데, 우리 분야의 벤치마크도 엉망임
측정 가능한 지표가 명확한데도 통계 처리가 형편없음. 대부분 평균 차이만 비교하고, p-value 계산도 믿을 수 없음
게다가 실제 워크로드 성능과의 상관관계도 거의 없음. 프로덕션 실험은 노이즈가 너무 커서 손실을 놓치기 쉬움
AI 쪽은 더 심각함. 측정 대상이 모호하고, 주가용 노이즈 측정을 하는 유인이 있음. 이런 상황에서 LLM 벤치마크가 엉망인 건 당연한 일임 - A/B 테스트도 위험함. 결국 사용자 피드백 최적화를 간접적으로 하는 셈인데, 인간 평가자는 쉽게 조작될 수 있음
B가 단순히 ‘사람을 속이는’ 방식으로 점수를 높일 수도 있음. OpenAI의 4o 사례가 대표적임 - 모델이 초등학교 수준의 수학 문제는 잘 풀다가 숫자나 문장을 조금만 바꾸면 틀리는 걸 보고 충격을 받았음. 결국 패턴 암기일 뿐임
- 기술 기업과 언론이 이런 문제를 투명하게 공개하지 않는 것이 더 큰 문제라고 생각함. 벤치마크 점수를 객관적 지표처럼 홍보함
- 나도 LLM 평가를 하고 있는데, 냉소적으로 보면 대부분의 벤치마크는 가짜 과제임. 실제 사용 사례가 거의 없기 때문임
좀 더 관대한 시각으로 보면, 지능 자체를 벤치마크하기 어렵다는 점임. 사람의 직무 적합성도 표준화된 질문으로 평가하기 힘든데, AI는 더 그렇지 않겠음
- 나는 하이퍼스케일러에서 플랫폼 인프라를 담당하는데, 우리 분야의 벤치마크도 엉망임
-
나는 TTS(Text-to-Speech) 분야에서 일하는데, 여기도 LLM보다 더 혼돈의 영역임
데모는 완벽하지만, 수백 분 단위로 생성하면 볼륨 드리프트, 속도 변화, 발음 오류가 계속 생김
장기 음성 합성용 표준 벤치마크가 없다는 게 가장 큰 문제임.
이런 기준을 제안한 글을 Death of Demo에 정리했음 -
나는 Humanity’s Last Exam 프로젝트에 대해 글을 썼음
전 세계 전문가들이 AI 모델을 시험하기 위해 어려운 문제를 크라우드소싱하는 방식임
인간에게는 쉬운 문제도 AI에게는 여전히 어렵다는 점이 흥미로웠음
결국 AI 학습의 미래는 현실 세계(meatspace) 에서의 경험과 추론 주석에 달려 있다고 봄- Mercor나 Micro1 같은 회사가 이미 이런 접근으로 연 매출 9자리를 내고 있음
-
벤치마크는 SAT 점수와 비슷하다고 생각함. 완벽한 예측은 아니지만 대략적인 신호로는 쓸 만함
LLM이 의미 있는 방향으로 발전하고 있고, 벤치마크도 어느 정도 그걸 반영함- 하지만 인간용 시험이 LLM의 업무 성능을 예측할 이유는 없음. 예를 들어 단순 곱셈 문제는 인간 지능과 상관있지만, 컴퓨터에는 무의미함
- 이건 마치 예술 평론가를 평가하는 시험 같음. 주관적인 결과를 객관적으로 채점하려는 시도 자체가 모순임
- “명확히 발전했다”는 표현은 논점을 흐림. 실제로는 의미 있는 발전 여부 자체가 논쟁 중임
-
현재 LLM 붐에서 가장 약한 고리가 벤치마크임
모델 간 비교는 거의 유사 과학 수준의 혼란임.
나는 LMArena 리더보드를 쓰고 있지만, 모델 간 결과가 설명 불가능하게 다름
프롬프트가 모델 버전에 강하게 결합되어 있어서, GPT-4에서 잘 되던 게 GPT-5에서는 깨짐
그래서 요즘은 그냥 Gemini를 쓰는 쪽으로 기울고 있음- LMArena 평가는 너무 쉽게 조작 가능함. 인간 평가자도 아첨형 답변에 속기 쉬움
이런 피드백 기반 튜닝이 LLM의 과잉 자신감 문제를 악화시킴 - 나는 AImodelReview라는 사이트를 만들어 여러 모델의 출력을 비교함
하지만 사용자들은 직접 평가하기 싫어하고 리더보드식 순위를 원함
LLM을 심판으로 쓰는 방식도 있지만, 그건 뭔가 잘못된 느낌임.
결국 전문가 리뷰어 기반 평가가 필요하지만, 비용이 큼 - 인간 심리검사도 비슷하게 어렵다는 점을 떠올림
- LMArena 평가는 너무 쉽게 조작 가능함. 인간 평가자도 아첨형 답변에 속기 쉬움
-
개발자 개인 수준에서는 직접 벤치마크를 만드는 것이 해결책임
자신이 푼 코드 문제를 기준으로 테스트를 만들고, tok/s나 TTFT 같은 지표를 확인하면 됨- 나는 에이전트 래퍼 환경에서만 LLM을 쓰기 때문에 벤치마크는 단순함. 새 모델로 작업해보고 감으로 pass/fail을 판단함
결국 사용자가 직접 써보는 게 가장 현실적인 평가임 - OpenAI의 GitHub에 평가를 추가하면, 다음 모델이 그 문제에서 더 잘하게 됨
- 이런 자체 평가를 evals라고 부르며, 진지한 AI 프로젝트라면 필수임
- AI Stupid Level 같은 사이트도 이런 접근을 하고 있음
- 다만 “문제를 푼다”는 게 단순히 패턴 인식일 수도 있음을 잊지 말아야 함
- 나는 에이전트 래퍼 환경에서만 LLM을 쓰기 때문에 벤치마크는 단순함. 새 모델로 작업해보고 감으로 pass/fail을 판단함
-
어떤 사람은 계산기 없는 시험(AIME) 문제를 예로 들며, 작은 수만 다루는 벤치마크는 실제 능력을 반영하지 못한다고 지적함
하지만 나는 모델이 인간처럼 시험 요령을 익히는 것도 일종의 진보라고 봄. 인간적인 추론에 더 가까움- 반대로, 진짜 추론 능력이라면 큰 수 문제도 해결해야 한다는 의견도 있음
- 대학생들이 시험 요령으로 문제를 푸는 건 인간 평가의 일부일 뿐인데, LLM은 그걸 전체 능력으로 포장함
나는 게임화되지 않은 평가를 원함. 지금은 단지 똑똑한 자동완성 수준임 - 계산 문제는 결국 도구 사용 능력이 생기면 사라질 문제임
- 관련 논의를 다룬 Forbidden Technique 영상도 흥미로움
- LLM이 Excel이나 Mathematica 같은 외부 도구를 활용하도록 하면 인간처럼 계산 문제를 해결할 수 있을 것임
-
우리끼리 짜증나는 버그 모음집 Git repo를 만들어 LLM을 테스트하자는 제안을 함
예를 들어 Yjs/CRDT 버그를 Claude Code, GPT5-codex, GLM-4.6으로 시도했지만 결국 우회 해결만 가능했음
프론트엔드 로그를 백엔드로 보내서 AI가 실시간으로 보게 하니 그제야 진전이 있었음- Playwright 라이브러리를 직접 쓰게 하면 프론트엔드 문제 해결에 효과적이었음
- 하지만 이런 제안은 사실상 AI 학습용 고품질 데이터를 무료로 제공하자는 꼴일 수도 있음
- 나도 개인적으로 버그 모음을 만들어 LLM에게 테스트 코드를 작성하게 해봤는데, 아직 최신 모델도 실패함
- 사실 대부분의 숙련된 LLM 사용자는 이미 자신만의 비공개 벤치마크를 유지함
공개하면 학습 데이터로 흡수되어 무효화되기 때문임.
이런 개인 벤치마크를 유지하면 모델의 실제 발전 속도를 훨씬 냉정하게 볼 수 있음
-
벤치마크는 결국 특정 맥락의 스펙일 뿐임. 특정 상황에서만 코드가 잘 작동함을 보여줄 뿐, 모든 경우를 보장하지 않음
- Dijkstra의 말처럼 “테스트는 버그의 존재를 보여줄 수 있지만, 부재를 증명할 수는 없음”
이를 LLM에 적용하면, “벤치마크는 가능한 작업을 보여줄 뿐, 불가능한 작업을 증명하지는 못함”이 됨
- Dijkstra의 말처럼 “테스트는 버그의 존재를 보여줄 수 있지만, 부재를 증명할 수는 없음”
-
이번 연구에서 445개의 벤치마크를 검토했는데, 대부분이 구성 타당성이 부족하다고 함
진짜 지능을 측정하려면 새로움(novelty) 을 평가해야 함.
이미 본 문제와 유사한 패턴을 푸는 건 단순 암기일 뿐임
하지만 수백 페타바이트의 학습 데이터를 피해서 완전히 새로운 문제를 만드는 건 거의 불가능함
그래서 지능의 착시가 생김- 문제 해결을 단순히 ‘기억’ 대 ‘창의성’으로 나누는 건 잘못된 접근임
실제로는 두 개념 사이에 무수한 회색 지대가 존재함.
완전히 새로운 문제라도 어느 정도 유사성이 있어야 해결 가능함
- 문제 해결을 단순히 ‘기억’ 대 ‘창의성’으로 나누는 건 잘못된 접근임