LLM 평가의 맹점: 우리는 왜 '행동'이 아니라 '지식'만 보는가?

(dev.to/johnonlee)

14P by johnonlee 2달전 | ★ favorite | 댓글 5개

• LLM 평가는 아직 "SAT 점수"에 머물러 있다 — MMLU, HumanEval, SWE-bench 모두 단일 세션·단일 정답 패러다임. 실제 코딩 에이전트는 여러 세션에 걸쳐 작업하고, 실수에서 배우고, 기존 컨벤션을 읽는다. 이건 지식(knowledge)이 아니라 행동(behavior)의 문제다.

• 우리는 사람 뽑을 때 학점보다 "어떻게 생각하나"를 본다 — LLM 평가엔 왜 그걸 안 하는가. 지금은 모든 모델이 90퍼센타일을 찍는 "GPA 확인" 단계에 멈춰 있다.

• 같은 버그를 고쳐도 접근 방식은 완전히 다르다 — Model A는 30초 만에 grep해서 패치(프로토타이핑형), Model B는 하위 작업 분해 후 체계적 접근(아키텍처형), Model C는 git log에서 선례 학습 후 수정(유지보수형). 셋 다 버그는 고친다. 점수는 동일하다. 역할 적합성은 완전히 다르다.

• 4가지 행동 관찰 차원 제안 — Decomposition(분해하는가 vs 바로 실행하는가), Approach(패턴을 찾는가 vs 원리에서 추론하는가), Recovery(막혔을 때 전략을 바꾸는가 vs 밀어붙이는가), Consistency(비슷한 문제에 같은 접근을 보이는가).

지식 평가 vs 행동 평가

기존 벤치마크	측정하는 것	놓치는 것
MMLU	지식 암기량	적용 판단력, "모르는 것에 대한 인지"
HumanEval	첫 시도 합격률	디버깅, 반복, 적응 과정
SWE-bench	패치 통과 여부	접근 경로, 아키텍처 이해, 크로스세션 학습

2026년, 진짜 필요한 질문

코딩 에이전트가 데모가 아니라 실제 팀 도구가 된 지금, 우리가 던져야 할 질문은 "몇 점이냐"가 아니다:

"레거시 유지보수에 어떤 모델이 맞는가"
"주니어 페어프로그래밍에 어울리는 디버깅 스타일은 무엇인가"
"주 단위로 가장 예측 가능한 행동을 보이는 모델은 무엇인가"

이건 role-fit 질문이다. 채용 질문이다. 우리는 아직 SAT 점수로 답하고 있다.

프레임워크를 완성형으로 제시하지 않는다. "내가 틀렸다면 정정해달라"는 태도로 4가지 가정을 명시적으로 열어두고 댓글 토론을 유도한다. 2026년 4월 Tang et al.의 "In-Situ Behavioral Evaluation for LLM Fairness" 논문도 유사한 방향성을 제시한다.

husky81 2달전 [-]

그러고보니 사람을 평가하는 수능시험도 행동이 아니라 지식만 보고 있긴 하네요

답변달기

cronex 2달전 [-]

일정한 패턴을 유지하면 모르겠는데 쓸 때마다 다르니..... 평가를 어떻게 해야할지 모르겠더군요.

답변달기

johnonlee 2달전 [-]

맞아요. 정답은 없지만 이런 방향으로도 한번 볼 필요가 있는 것 같아요. 지금은 한 모델로 일을 처음부터 끝까지 시키는데, 내일은 중간중간 각 모델이 잘하는 영역만 맡아서 하는 식으로 변화가 오지 않을까 싶어요. 모두 열심히 공부하면 어느 정도 비슷한 수준의 지식을 갖게 되겠지만, 행동 패턴에 따라서 결과물에서 차이가 생길 수 있으니까요.

답변달기

b8g6pn 2달전 [-]

정답은 없고 인간 기준도 정확하고 리소스 적게 쓰는게 관건이니 토큰량와 달성수준으로 평가하는게 맞지않을까요? 방법까지 참견하면 참 어렵죠...

답변달기

aliveornot 2달전 [-]

틀린말이야 아니지만 답이 있나요. 실제 채용에서도 저걸 점수화하는게 어려우니까 사람도 뽑아서 써보다가 자르고 이러는 거지... ai 모델 쓰다가 교체하는것처럼요

답변달기