AI의 장기 작업 수행 능력 측정

(metr.org)

10P by GN⁺ 2달전 | ★ favorite | 댓글 2개

AI 모델이 완전하게 수행할 수 있는 작업의 ‘길이’ 를 기준으로 성능을 측정하는 새로운 지표가 제시됨
지난 6년간 AI가 자율적으로 완수할 수 있는 작업 길이가 약 7개월마다 두 배로 증가한 것으로 분석됨
인간 전문가가 4분 이내에 끝내는 작업은 거의 100% 성공하지만, 4시간 이상 걸리는 작업은 성공률이 10% 미만
이 추세가 유지될 경우, 수년 내에 AI가 수주 단위의 프로젝트를 독립적으로 수행할 수 있을 것으로 예측됨
연구는 AI 벤치마크와 미래 역량 예측, 위험 관리에 중요한 함의를 가짐

연구 개요

METR는 AI가 얼마나 긴 작업을 완수할 수 있는지를 측정하는 새로운 방법을 제시
- 측정 기준은 인간 전문가가 해당 작업을 수행하는 데 걸리는 시간
- 모델의 성공 확률과 인간 작업 시간 간의 관계를 로지스틱 곡선으로 모델링
이 접근법은 AI의 실제 활용 가능성을 평가하는 데 유용한 지표로 제시됨
- 기존 벤치마크가 단일 문제 해결 능력에 치중한 한계를 보완

주요 결과

현재 모델의 성능 한계
- 인간이 4분 이내에 수행하는 작업은 거의 100% 성공
- 4시간 이상 걸리는 작업은 성공률이 10% 미만
- 예: Claude 3.7 Sonnet은 약 1시간 길이의 작업에서 50% 성공률
성능 향상 추세
- 지난 6년간 50% 신뢰도로 완수 가능한 작업 길이가 약 7개월마다 두 배 증가
- 로그 스케일 분석 결과, 지속적인 지수적 성장이 확인됨
- 추세가 유지될 경우, 2~4년 내 주 단위 작업 수행 가능성

방법론 및 검증

데이터셋 기반 검증
- 다양한 작업군(소프트웨어, 추론 등)에 대해 인간 수행 시간을 기록
- SWE-Bench Verified 데이터셋에서도 유사한 지수적 증가 확인
- 해당 데이터에서는 3개월 미만의 두 배 증가 속도 관찰
민감도 분석
- 모델·작업 선택, 노이즈 등 다양한 요인에 대한 견고성 검증
- 1개월 길이 작업 수행 시점을 예측하는 시뮬레이션에서 측정 오차가 커도 추세는 유지

해석 및 한계

AI의 벤치마크 성과와 실제 유용성 간 괴리를 설명
- 시험 문제 등에서는 인간을 능가하지만, 실제 장기 프로젝트 수행은 미흡
추세 외삽의 불확실성 인정
- 2024~2025년 데이터만 사용 시, 월 단위 작업 수행 시점이 약 2.5년 앞당겨짐
- 과거 데이터보다 최근 추세가 미래 성능을 더 잘 예측할 가능성 언급

결론 및 의의

AI 성능을 ‘작업 길이’로 측정하는 접근법은
- 다양한 난이도와 도메인에서의 성능 향상을 정량화 가능
- 실제 세계 영향력과 직접 연결되는 절대적 성과 해석을 가능하게 함
지속적인 지수 성장이 이어질 경우,
- 10년 이내 자율적 월 단위 프로젝트 수행이 가능할 전망
- 이는 막대한 잠재적 이익과 위험을 동시에 수반
연구 데이터와 분석 코드는 GitHub에 공개, 후속 연구 및 복제 실험을 장려
- 관련 인프라: vivaria, eval-analysis-public

▲

crawler 2달전 [-]

아주 좋은 벤치 같은데요
요즘 AI 코딩 툴들을 보면 Plan을 미리 세우고 Agent 모드로 행동하게 하는 경우가 많은데, 이게 정말 장기 성공률에 유의미한 영향을 주는 지도 궁금하네요

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

최근 내 취미 프로젝트에 “vector search 추가”만 요청했는데, Opus가 manticore를 설정하고, 임베딩 모델을 가져오고, 기존 키워드 인덱스를 마이그레이션하는 도구를 만들고, 프론트엔드까지 구성해줬음
트윗 한 줄짜리 프롬프트였는데 15분 만에 완성되었고, 나는 그동안 Kirby Air Riders를 하고 있었음
다만 이 과정을 통해 vector search 구축에 대해 아무것도 배우지 못했다는 점이 아쉬웠음. 결국 기능 자체가 목적이었고, 학습은 부차적인 일이었음
- 굳이 오래 걸리는 방식으로 만드는 게 더 효과적인 학습법이라고 생각하지 않음
  4시간을 들여 직접 만들기보다, 에이전트가 15분 만에 만들어주는 동안 다른 일을 하고, 이후 30분 정도 코드를 읽고 수정하며 질문하는 게 훨씬 효율적임
  집중된 30분의 학습이 4시간의 시행착오보다 더 나을 수도 있음
- 하지만 그렇게 하면 결국 유지보수 불가능한 거대한 코드 덩어리가 생김
  AI도 어느 순간 코드의 구조를 잃어버리고, 결국 Opus에 종속된 고객이 되어버림
- Opus나 Anthropic은 확실히 최고 수준이지만, 사용할 때마다 지적 패스트푸드처럼 느껴짐
  예전엔 음악 들으며 Scala로 문제를 푸는 과정이 즐거웠는데, 이제는 너무 쉽게 결과만 얻는 게 오히려 허무함을 줌
- “기능을 원했지, 만드는 법을 배우고 싶진 않았다”는 말에 완전히 공감함
  나도 거래 모델을 만들 때 차트를 직접 배우기보단 LLM이 코드를 대신 써주길 원함
  덕분에 사소한 API 처리에 시간을 낭비하지 않고, 진짜 의사결정이 필요한 부분에만 집중할 수 있음
- 그 vector search 코드, 혹시 공유 가능한지 궁금함
“긴 작업(long task) ” 개념을 직접 겪기 전엔 잘 몰랐음
Python HTML5 파서를 JavaScript로 포팅하면서 Codex CLI를 9,200개의 html5lib-tests에 돌려봤는데, 4시간 넘게 루프를 돌며 문제를 해결하는 걸 보는 게 인상적이었음
관련 글은 여기에 정리했음
- METR의 “4시간 작업”은 AI가 실제로 4시간 걸린다는 뜻이 아니라, 인간이 4시간 걸릴 난이도를 의미함
  Opus 4.5는 이런 수준의 작업을 50% 신뢰도로 수행할 수 있다는 뜻이며, 실제 실행 시간은 훨씬 짧음
  앞으로 8시간, 40시간 같은 기준을 넘기면 더 흥미로워질 것임
- 이 지표는 AI의 실제 속도가 아니라 인간 기준 난이도를 측정하는 것임
  벤치마크는 빠르게 깨지만, 실제 업무 자동화는 여전히 어렵다는 점을 잘 보여줌
- METR의 “human hours equivalent”는 ‘어떤 인간’을 기준으로 하느냐가 중요함
  jq나 PyPI 생태계, TypeScript 주석 등에 익숙한 사람이라면 훨씬 빨리 끝낼 수도 있음
  결국 AI의 매력은 이런 전문가 수준의 도움을 즉시 받을 수 있다는 점임
- 그런데 Codex나 Claude code로 긴 작업을 돌리면 권한 요청이 너무 자주 뜨고, 중간에 멈추는 경우가 많음
  대부분의 모델이 “다음 단계로 넘어가자”고 말하며 스스로 중단함
- GPT5.2는 특히 사용자 입력을 과도하게 요구해서, 2분 이상 연속 작업을 시키기가 어려움
  혹시 이 문제를 해결한 방법이 있는지 궁금함
모델에 대한 평가는 조심스럽지만, Opus 4.5와 Sonnet 4.5의 차이는 확실히 느껴졌음
예전보다 가격 차이도 줄어서 실사용 가치가 높아졌고, Haiku 4.5도 reasoning을 켜면 꽤 쓸 만함
작은 도구나 단일 페이지 편집에는 특히 적합함
소프트웨어 학습은 탐색(exploration) 과 활용(exploitation) 두 단계로 나뉜다고 생각함
LLM 덕분에 이 두 단계가 자연스럽게 결합됨
예를 들어 AnimeJS 애니메이션을 만들 때, CCAgent가 코드를 작성하는 과정을 보며 배우고, 이후 직접 구조화하고 리팩터링함
이렇게 하면 시간 절약과 창의적 통제를 동시에 얻을 수 있음
Opus는 GPT 5.1보다 큰 도약처럼 보이지만, 80% 신뢰도 기준에서는 여전히 GPT 5.1이 우세함
즉, 짧은 작업엔 GPT 5.1, 긴 작업엔 Opus가 더 적합함
- 50% 성공률로는 비싼 토큰 낭비가 크지만, 내년쯤엔 오픈소스 모델도 이 수준에 도달할 것이라 기대함
METR의 핵심은 ‘인간 등가 시간’ 을 기준으로 복잡도를 측정한다는 점임
50% 성공률로 4시간짜리 작업을 맡기면 사실상 도박에 가깝고, 실패 시 디버깅까지 하면 손실이 큼
그래서 30분 단위로 인간 검토 체크포인트를 두는 게 좋다고 생각함
다만 AI가 중간에 막혔을 때 스스로 복구할 수 있는 능력도 중요함
- 하지만 30분 동안 AI가 만들어내는 결과물이 너무 많아서 검토가 악몽 수준임
  겉보기엔 멀쩡하지만, 나중에야 드러나는 미묘한 버그가 많음
  그래서 중요한 작업에는 아직 에이전트를 쓰지 않음, 오히려 일의 즐거움을 빼앗기 때문임
- 4시간을 허비했다고 해도, 그 시간 동안 다른 일을 했다면 손해는 아님
  절반의 확률로 결과를 얻는다면, 시간 대비 효율적인 베팅일 수도 있음
- 실패해도 실제로 잃는 건 AI가 작업한 몇 분뿐이라, 프로토타입 탐색용으로는 훌륭함
  여러 시도를 빠르게 해볼 수 있고, 실패에서도 배움이 있음
95%나 99% 신뢰도 기준의 그래프도 필요함
그래야 LLM이 여전히 인간이 쉽게 하는 일에서 왜 자주 실패하는지를 더 명확히 볼 수 있음
성능 최적화는 AI의 실질적 지능을 측정하기 좋은 벤치마크라고 생각함
결과를 수치로 검증할 수 있고, 코드가 짧을수록 좋으며, 단순한 조합이 아닌 시스템적 사고가 필요함
지금까지는 Gemini Pro 3가 SIMD 코드 최적화에서 가장 뛰어났음
50% 성공률의 문제는 재시도 시 확률이 급격히 떨어진다는 점임
4시간짜리 작업을 여러 번 반복하면 성공 확률이 6.25%까지 떨어짐
- 다만 “운이 나쁘다”기보단, 한 번 실패한 작업은 다음 시도에서 성공 확률이 달라질 수도 있음
  작업 성격에 따라 다름

답변달기