AI에이전트 도입의 가장 큰 병목은 성능 보다 신뢰(feat. 시간)이다.
(maily.so)AI 에이전트는 실제로 얼마나 자율적으로 일하고 있을까
- Anthropic은 수백만 건의 Claude Code 상호작용을 분석해 AI 에이전트가 실제로 얼마나 일을 맡고 있는지 측정했습니다.
- 연구의 핵심은 모델 성능이 아니라 사람이 얼마나 자율성을 위임했는가였습니다.
- 대부분의 작업은 짧지만, 가장 긴 자율 작업 시간은 3개월 사이 25분 → 45분 이상으로 증가했습니다.
- 흥미로운 점은 이 변화가 모델 업그레이드보다 사용자 신뢰 축적에서 비롯되었다는 것입니다.
- 경험 많은 사용자는 자동 승인 비율을 높이면서도 필요할 때 중간 개입하는 ‘모니터링 방식’ 으로 감독 전략을 바꿉니다.
- 또한 AI 스스로도 불확실할 때 질문하거나 멈추는 자기 통제 메커니즘을 보입니다.
- 현재 에이전트 사용의 절반은 소프트웨어 개발 영역에 집중되어 있습니다.
- 결국 AI 에이전트의 자율성은 모델 성능보다 신뢰·조직 문화·도구 구조에 의해 결정됩니다.