AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

(arxiv.org)

3P by davespark 2달전 | ★ favorite | 댓글과 토론

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구팀이 AI 에이전트의 스킬 활용 능력을 현실적으로 평가한 연구 결과입니다.

연구팀은 오픈소스에서 34,198개의 스킬(워크플로, API 사용법, 모범 사례 등 구조화된 지식)을 수집해 테스트했습니다. 기존 벤치마크(SKILLSBENCH)는 에이전트에게 딱 맞는 스킬을 미리 제공하는 이상적인 조건으로 평가해 성능이 과장되는 문제가 있었습니다.

연구팀은 이를 개선하기 위해 6단계 현실적 시나리오를 설계했습니다:

스킬을 직접 제공
에이전트가 스스로 스킬 선택
관련 없는 스킬을 섞음
대규모 스킬 풀에서 검색
맞춤형 스킬이 아예 없는 경우

Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B 등 최신 모델을 대상으로 테스트한 결과:

Claude Opus 4.6 기준
- 스킬 직접 제공 시: 55.4% 통과율
- 현실 조건(대규모 검색 + 선택): 40.1%
- 맞춤형 스킬 없을 때: 38.4% (스킬 미사용 기준선 35.4%와 불과 3%p 차이)
약한 모델(Kimi, Qwen)의 경우 스킬을 사용하면 오히려 성능이 기준선 아래로 떨어지는 역효과가 나타났습니다.

성능 저하 주요 원인

스킬 선별 실패: 맞춤형 스킬이 있어도 Claude가 49%만 제대로 불러옴
검색 정확도 한계: 상위 5개 중 관련 스킬 회수율(Recall@5)이 최대 65.5%에 그침
적응 능력 부족: 유사 스킬을 상황에 맞게 잘 응용하지 못함

개선 시도와 결과

과제별로 스킬을 정제·생성하는 방법을 적용하면 Claude 성능이 40.1% → 48.2% 까지 올랐으나, 초기 검색 스킬이 어느 정도 관련이 있어야 효과가 있었습니다.
Vercel 연구처럼 단순히 AGENTS.md 같은 마크다운 파일을 컨텍스트에 넣는 방식이 더 안정적이라는 의견도 나왔습니다.

결론 및 제언

현재 AI 에이전트 스킬은 벤치마크에서만 과장된 성능을 보일 뿐, 실제 사용 환경에서는 효과가 매우 제한적입니다. 특히 약한 모델에서는 스킬이 오히려 방해가 될 수 있습니다.

연구팀은 더 나은 검색 기법, 효과적인 오프라인 스킬 정제 전략, 모델 역량에 맞는 스킬 생태계 설계가 필요하다고 강조했습니다. 논문과 코드는 GitHub에 공개되어 있습니다.

관련 참고: https://aisparkup.com/posts/11097