# AI 시스템 평가 방식의 약점을 밝힌 연구

> Clean Markdown view of GeekNews topic #24241. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24241](https://news.hada.io/topic?id=24241)
- GeekNews Markdown: [https://news.hada.io/topic/24241.md](https://news.hada.io/topic/24241.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-09T17:33:39+09:00
- Updated: 2025-11-09T17:33:39+09:00
- Original source: [oii.ox.ac.uk](https://www.oii.ox.ac.uk/news-events/study-identifies-weaknesses-in-how-ai-systems-are-evaluated/)
- Points: 4
- Comments: 1

## Topic Body

- 전 세계 42명의 연구진이 참여한 **옥스퍼드 인터넷 연구소(OII)** 주도의 대규모 연구가 **대형 언어모델(LLM)** 평가에 사용되는 벤치마크의 과학적 엄밀성이 부족함을 확인  
- 445개의 **AI 벤치마크**를 검토한 결과, 절반 이상이 개념 정의가 불명확하거나 분석 방법이 약해 **신뢰할 수 있는 결론 도출이 어려운 구조**로 나타남  
- 검토된 연구 중 **16%만이 통계적 방법**을 사용했으며, ‘추론’이나 ‘무해성’ 같은 추상적 개념을 명확히 정의하지 않은 경우가 많음  
- 연구진은 **정의 명확화, 대표성 있는 평가, 통계적 분석 강화** 등을 포함한 8가지 개선 권고안을 제시하고, 이를 위한 **Construct Validity Checklist** 도구를 공개  
- AI 벤치마크의 과학적 타당성 확보가 **AI 기술 발전과 규제 신뢰성의 핵심 과제**로 부상  

---

### 연구 개요
- 옥스퍼드 인터넷 연구소(OII)가 주도하고 EPFL, Stanford, TUM, UC Berkeley, Yale 등 주요 기관이 참여한 연구임  
- 논문 제목은 *Measuring What Matters: Construct Validity in Large Language Model Benchmarks*이며, **NeurIPS 2025** 학회 발표 예정  
- 연구는 **445개의 AI 벤치마크**를 체계적으로 검토해 평가 기준의 과학적 타당성을 분석  

### 주요 발견
- **통계적 엄밀성 부족**: 검토된 연구 중 16%만이 통계적 비교 방법을 사용  
  - 모델 간 성능 차이나 우월성 주장이 **우연에 의한 결과일 가능성** 존재  
- **모호하거나 논쟁적인 정의**: 약 절반의 벤치마크가 ‘추론’, ‘무해성’ 등 추상 개념을 명확히 정의하지 않음  
  - 명확한 개념 정의 부재로 **평가 목적과 실제 측정 간 불일치** 발생  

### 문제 사례
- **형식 규칙 혼동**: 단순 논리 퍼즐을 풀면서 복잡한 형식으로 답을 제출하도록 요구할 경우, 정답을 맞혀도 형식 오류로 실패 처리됨  
- **취약한 성능**: 간단한 수학 문제에는 강하지만 숫자나 문장 구조가 조금만 바뀌면 실패하는 사례 존재  
- **근거 없는 주장**: 의료 시험 문제에서 높은 점수를 얻었다고 해서 **의사 수준의 전문성**을 가진 것으로 오해될 수 있음  

### 개선 권고안
- 연구진은 문제 해결이 가능하다고 보고, **심리측정학·의학 분야의 검증 방법론**을 참고한 8가지 권고안을 제시  
  - **정의 및 통제(Define and isolate)** : 측정 개념을 명확히 정의하고 관련 없는 요인을 통제  
  - **대표성 있는 평가(Build representative evaluations)** : 실제 환경을 반영하고 목표 기술의 전체 범위를 포함  
  - **분석 강화(Strengthen analysis and justification)** : 통계적 불확실성 보고, 오류 분석 수행, 벤치마크의 타당성 근거 제시  
- **Construct Validity Checklist**를 통해 연구자·개발자·규제기관이 벤치마크의 설계 타당성을 사전에 점검 가능  

### 연구 의의
- 벤치마크는 **AI 연구 방향, 모델 경쟁, 정책 및 규제 기준**을 결정하는 핵심 도구로 작용  
- 과학적 근거가 약한 벤치마크는 **AI 성능과 안전성에 대한 오해**를 초래할 위험 존재  
- 이번 연구는 **AI 평가의 신뢰성 확보를 위한 국제 협력 모델**로 제시됨  

### 기타 정보
- 논문은 2025년 12월 2~7일 **NeurIPS 2025**에서 발표 예정  
- 연구 지원은 Clarendon 장학금, ESRC, EPSRC, Meta LLM Evaluation Research Grant 등 다양한 기관에서 이루어짐  
- OII는 지난 25년간 **인공지능, 디지털 플랫폼, 자율 시스템** 등 신기술의 사회적 영향을 연구해 온 기관임

## Comments


### Comment 46100

- Author: neo
- Created: 2025-11-09T17:33:40+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45856804) 
- 나는 연구소에서 **LLM 벤치마크와 인간 평가**를 담당하고 있음  
  솔직히 말해 지금 이 분야는 완전한 **무법지대** 수준임. 제대로 된 해결책이 없고, 연구자들도 벤치마킹에만 매달리기 싫어함  
  결국 제품 수준에서는 전통적인 **A/B 테스트**가 가장 현실적인 방법임. 직접적인 지표를 대규모로 측정할 수 있기 때문임  
  물론 ‘benchmarketing’ 같은 것도 있지만, 대부분은 진심으로 좋은 벤치마크를 만들고자 함. 다만 그게 너무 어렵거나 불가능할 뿐임  
  - 나는 하이퍼스케일러에서 플랫폼 인프라를 담당하는데, 우리 분야의 **벤치마크도 엉망**임  
    측정 가능한 지표가 명확한데도 통계 처리가 형편없음. 대부분 평균 차이만 비교하고, p-value 계산도 믿을 수 없음  
    게다가 실제 워크로드 성능과의 상관관계도 거의 없음. 프로덕션 실험은 노이즈가 너무 커서 손실을 놓치기 쉬움  
    AI 쪽은 더 심각함. 측정 대상이 모호하고, **주가용 노이즈 측정**을 하는 유인이 있음. 이런 상황에서 LLM 벤치마크가 엉망인 건 당연한 일임  
  - A/B 테스트도 위험함. 결국 **사용자 피드백 최적화**를 간접적으로 하는 셈인데, 인간 평가자는 쉽게 조작될 수 있음  
    B가 단순히 ‘사람을 속이는’ 방식으로 점수를 높일 수도 있음. OpenAI의 4o 사례가 대표적임  
  - 모델이 초등학교 수준의 수학 문제는 잘 풀다가 숫자나 문장을 조금만 바꾸면 틀리는 걸 보고 충격을 받았음. 결국 **패턴 암기**일 뿐임  
  - 기술 기업과 언론이 이런 문제를 **투명하게 공개하지 않는 것**이 더 큰 문제라고 생각함. 벤치마크 점수를 객관적 지표처럼 홍보함  
  - 나도 LLM 평가를 하고 있는데, 냉소적으로 보면 대부분의 벤치마크는 **가짜 과제**임. 실제 사용 사례가 거의 없기 때문임  
    좀 더 관대한 시각으로 보면, **지능 자체를 벤치마크하기 어렵다**는 점임. 사람의 직무 적합성도 표준화된 질문으로 평가하기 힘든데, AI는 더 그렇지 않겠음  

- 나는 **TTS(Text-to-Speech)** 분야에서 일하는데, 여기도 LLM보다 더 **혼돈의 영역**임  
  데모는 완벽하지만, 수백 분 단위로 생성하면 볼륨 드리프트, 속도 변화, 발음 오류가 계속 생김  
  장기 음성 합성용 표준 벤치마크가 없다는 게 가장 큰 문제임.  
  이런 기준을 제안한 글을 [Death of Demo](https://lielvilla.com/blog/death-of-demo/)에 정리했음  

- 나는 **Humanity’s Last Exam** 프로젝트에 대해 글을 썼음  
  전 세계 전문가들이 AI 모델을 시험하기 위해 어려운 문제를 크라우드소싱하는 방식임  
  인간에게는 쉬운 문제도 AI에게는 여전히 어렵다는 점이 흥미로웠음  
  결국 **AI 학습의 미래는 현실 세계(meatspace)** 에서의 경험과 추론 주석에 달려 있다고 봄  
  - Mercor나 Micro1 같은 회사가 이미 이런 접근으로 **연 매출 9자리**를 내고 있음  

- 벤치마크는 **SAT 점수**와 비슷하다고 생각함. 완벽한 예측은 아니지만 대략적인 신호로는 쓸 만함  
  LLM이 의미 있는 방향으로 발전하고 있고, 벤치마크도 어느 정도 그걸 반영함  
  - 하지만 인간용 시험이 LLM의 업무 성능을 예측할 이유는 없음. 예를 들어 단순 곱셈 문제는 인간 지능과 상관있지만, 컴퓨터에는 무의미함  
  - 이건 마치 **예술 평론가를 평가하는 시험** 같음. 주관적인 결과를 객관적으로 채점하려는 시도 자체가 모순임  
  - “명확히 발전했다”는 표현은 논점을 흐림. 실제로는 **의미 있는 발전 여부 자체가 논쟁 중**임  

- 현재 LLM 붐에서 **가장 약한 고리**가 벤치마크임  
  모델 간 비교는 거의 **유사 과학 수준의 혼란**임.  
  나는 [LMArena 리더보드](https://lmarena.ai/leaderboard)를 쓰고 있지만, 모델 간 결과가 설명 불가능하게 다름  
  프롬프트가 모델 버전에 강하게 결합되어 있어서, GPT-4에서 잘 되던 게 GPT-5에서는 깨짐  
  그래서 요즘은 그냥 Gemini를 쓰는 쪽으로 기울고 있음  
  - LMArena 평가는 너무 쉽게 **조작 가능**함. 인간 평가자도 아첨형 답변에 속기 쉬움  
    이런 피드백 기반 튜닝이 LLM의 **과잉 자신감 문제**를 악화시킴  
  - 나는 [AImodelReview](https://aimodelreview.com/)라는 사이트를 만들어 여러 모델의 출력을 비교함  
    하지만 사용자들은 직접 평가하기 싫어하고 **리더보드식 순위**를 원함  
    LLM을 심판으로 쓰는 방식도 있지만, 그건 뭔가 잘못된 느낌임.  
    결국 **전문가 리뷰어 기반 평가**가 필요하지만, 비용이 큼  
  - 인간 심리검사도 비슷하게 어렵다는 점을 떠올림  

- 개발자 개인 수준에서는 **직접 벤치마크를 만드는 것**이 해결책임  
  자신이 푼 코드 문제를 기준으로 테스트를 만들고, tok/s나 TTFT 같은 지표를 확인하면 됨  
  - 나는 에이전트 래퍼 환경에서만 LLM을 쓰기 때문에 벤치마크는 단순함. 새 모델로 작업해보고 **감으로 pass/fail**을 판단함  
    결국 사용자가 직접 써보는 게 가장 현실적인 평가임  
  - OpenAI의 GitHub에 평가를 추가하면, 다음 모델이 그 문제에서 더 잘하게 됨  
  - 이런 자체 평가를 **evals**라고 부르며, 진지한 AI 프로젝트라면 필수임  
  - [AI Stupid Level](https://aistupidlevel.info/) 같은 사이트도 이런 접근을 하고 있음  
  - 다만 “문제를 푼다”는 게 단순히 **패턴 인식**일 수도 있음을 잊지 말아야 함  

- 어떤 사람은 **계산기 없는 시험(AIME)** 문제를 예로 들며, 작은 수만 다루는 벤치마크는 실제 능력을 반영하지 못한다고 지적함  
  하지만 나는 모델이 인간처럼 **시험 요령을 익히는 것**도 일종의 진보라고 봄. 인간적인 추론에 더 가까움  
  - 반대로, 진짜 추론 능력이라면 큰 수 문제도 해결해야 한다는 의견도 있음  
  - 대학생들이 시험 요령으로 문제를 푸는 건 인간 평가의 일부일 뿐인데, LLM은 그걸 전체 능력으로 포장함  
    나는 **게임화되지 않은 평가**를 원함. 지금은 단지 똑똑한 자동완성 수준임  
  - 계산 문제는 결국 **도구 사용 능력**이 생기면 사라질 문제임  
  - 관련 논의를 다룬 [Forbidden Technique 영상](https://www.youtube.com/watch?v=Xx4Tpsk_fnM)도 흥미로움  
  - LLM이 Excel이나 Mathematica 같은 외부 도구를 활용하도록 하면 인간처럼 계산 문제를 해결할 수 있을 것임  

- 우리끼리 **짜증나는 버그 모음집 Git repo**를 만들어 LLM을 테스트하자는 제안을 함  
  예를 들어 Yjs/CRDT 버그를 Claude Code, GPT5-codex, GLM-4.6으로 시도했지만 결국 **우회 해결**만 가능했음  
  프론트엔드 로그를 백엔드로 보내서 AI가 실시간으로 보게 하니 그제야 진전이 있었음  
  - **Playwright 라이브러리**를 직접 쓰게 하면 프론트엔드 문제 해결에 효과적이었음  
  - 하지만 이런 제안은 사실상 **AI 학습용 고품질 데이터**를 무료로 제공하자는 꼴일 수도 있음  
  - 나도 개인적으로 버그 모음을 만들어 LLM에게 테스트 코드를 작성하게 해봤는데, 아직 **최신 모델도 실패**함  
  - 사실 대부분의 숙련된 LLM 사용자는 이미 자신만의 비공개 벤치마크를 유지함  
    공개하면 학습 데이터로 흡수되어 무효화되기 때문임.  
    이런 개인 벤치마크를 유지하면 **모델의 실제 발전 속도**를 훨씬 냉정하게 볼 수 있음  

- 벤치마크는 결국 **특정 맥락의 스펙**일 뿐임. 특정 상황에서만 코드가 잘 작동함을 보여줄 뿐, 모든 경우를 보장하지 않음  
  - Dijkstra의 말처럼 “테스트는 버그의 존재를 보여줄 수 있지만, 부재를 증명할 수는 없음”  
    이를 LLM에 적용하면, “벤치마크는 가능한 작업을 보여줄 뿐, **불가능한 작업을 증명하지는 못함**”이 됨  

- 이번 연구에서 445개의 벤치마크를 검토했는데, 대부분이 **구성 타당성**이 부족하다고 함  
  진짜 지능을 측정하려면 **새로움(novelty)** 을 평가해야 함.  
  이미 본 문제와 유사한 패턴을 푸는 건 단순 암기일 뿐임  
  하지만 수백 페타바이트의 학습 데이터를 피해서 완전히 새로운 문제를 만드는 건 거의 불가능함  
  그래서 **지능의 착시**가 생김  
  - 문제 해결을 단순히 ‘기억’ 대 ‘창의성’으로 나누는 건 잘못된 접근임  
    실제로는 두 개념 사이에 **무수한 회색 지대**가 존재함.  
    완전히 새로운 문제라도 어느 정도 유사성이 있어야 해결 가능함