# AI의 장기 작업 수행 능력 측정

> Clean Markdown view of GeekNews topic #25259. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25259](https://news.hada.io/topic?id=25259)
- GeekNews Markdown: [https://news.hada.io/topic/25259.md](https://news.hada.io/topic/25259.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-23T07:37:09+09:00
- Updated: 2025-12-23T07:37:09+09:00
- Original source: [metr.org](https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/)
- Points: 10
- Comments: 2

## Summary

AI의 **장기 작업 수행 능력**을 시간 단위로 정량화하는 새로운 지표가 제안되었습니다. METR 연구팀은 인간 전문가가 소요하는 작업 시간을 기준으로 모델의 성공 확률을 분석해, 지난 6년간 AI가 완수할 수 있는 작업 길이가 **약 7개월마다 두 배씩 증가**해왔음을 확인했습니다. 현재는 4시간 이상 걸리는 과제의 성공률이 10% 미만이지만, 이 추세가 이어질 경우 수년 내 **주 단위 프로젝트를 독립적으로 수행하는 AI**가 등장할 가능성이 제시됩니다.

## Topic Body

- **AI 모델이 완전하게 수행할 수 있는 작업의 ‘길이’** 를 기준으로 성능을 측정하는 새로운 지표가 제시됨  
- 지난 **6년간 AI가 자율적으로 완수할 수 있는 작업 길이가 약 7개월마다 두 배로 증가**한 것으로 분석됨  
- 인간 전문가가 4분 이내에 끝내는 작업은 거의 100% 성공하지만, **4시간 이상 걸리는 작업은 성공률이 10% 미만**  
- 이 추세가 유지될 경우, **수년 내에 AI가 수주 단위의 프로젝트를 독립적으로 수행**할 수 있을 것으로 예측됨  
- 연구는 **AI 벤치마크와 미래 역량 예측, 위험 관리**에 중요한 함의를 가짐  

---

### 연구 개요
- METR는 **AI가 얼마나 긴 작업을 완수할 수 있는지**를 측정하는 새로운 방법을 제시  
  - 측정 기준은 인간 전문가가 해당 작업을 수행하는 데 걸리는 시간  
  - 모델의 성공 확률과 인간 작업 시간 간의 관계를 **로지스틱 곡선**으로 모델링  
- 이 접근법은 **AI의 실제 활용 가능성**을 평가하는 데 유용한 지표로 제시됨  
  - 기존 벤치마크가 단일 문제 해결 능력에 치중한 한계를 보완  

### 주요 결과
- **현재 모델의 성능 한계**  
  - 인간이 4분 이내에 수행하는 작업은 거의 100% 성공  
  - 4시간 이상 걸리는 작업은 성공률이 10% 미만  
  - 예: **Claude 3.7 Sonnet**은 약 1시간 길이의 작업에서 50% 성공률  
- **성능 향상 추세**  
  - 지난 6년간 50% 신뢰도로 완수 가능한 작업 길이가 **약 7개월마다 두 배 증가**  
  - 로그 스케일 분석 결과, **지속적인 지수적 성장**이 확인됨  
  - 추세가 유지될 경우, **2~4년 내 주 단위 작업 수행 가능성**  

### 방법론 및 검증
- **데이터셋 기반 검증**  
  - 다양한 작업군(소프트웨어, 추론 등)에 대해 인간 수행 시간을 기록  
  - **SWE-Bench Verified** 데이터셋에서도 유사한 지수적 증가 확인  
  - 해당 데이터에서는 **3개월 미만의 두 배 증가 속도** 관찰  
- **민감도 분석**  
  - 모델·작업 선택, 노이즈 등 다양한 요인에 대한 견고성 검증  
  - 1개월 길이 작업 수행 시점을 예측하는 시뮬레이션에서 **측정 오차가 커도 추세는 유지**  

### 해석 및 한계
- **AI의 벤치마크 성과와 실제 유용성 간 괴리**를 설명  
  - 시험 문제 등에서는 인간을 능가하지만, **실제 장기 프로젝트 수행은 미흡**  
- **추세 외삽의 불확실성** 인정  
  - 2024~2025년 데이터만 사용 시, **월 단위 작업 수행 시점이 약 2.5년 앞당겨짐**  
  - 과거 데이터보다 최근 추세가 **미래 성능을 더 잘 예측할 가능성** 언급  

### 결론 및 의의
- **AI 성능을 ‘작업 길이’로 측정하는 접근법**은  
  - 다양한 난이도와 도메인에서의 성능 향상을 정량화 가능  
  - **실제 세계 영향력과 직접 연결되는 절대적 성과 해석**을 가능하게 함  
- **지속적인 지수 성장**이 이어질 경우,  
  - **10년 이내 자율적 월 단위 프로젝트 수행**이 가능할 전망  
  - 이는 **막대한 잠재적 이익과 위험**을 동시에 수반  
- 연구 데이터와 분석 코드는 **GitHub에 공개**, 후속 연구 및 복제 실험을 장려  
  - 관련 인프라: [vivaria](https://github.com/METR/vivaria), [eval-analysis-public](https://github.com/METR/eval-analysis-public)

## Comments



### Comment 48174

- Author: crawler
- Created: 2025-12-23T10:40:21+09:00
- Points: 1

아주 좋은 벤치 같은데요  
요즘 AI 코딩 툴들을 보면 Plan을 미리 세우고 Agent 모드로 행동하게 하는 경우가 많은데, 이게 정말 장기 성공률에 유의미한 영향을 주는 지도 궁금하네요

### Comment 48159

- Author: neo
- Created: 2025-12-23T07:37:09+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46342166) 
- 최근 내 취미 프로젝트에 “**vector search 추가**”만 요청했는데, Opus가 manticore를 설정하고, 임베딩 모델을 가져오고, 기존 키워드 인덱스를 마이그레이션하는 도구를 만들고, 프론트엔드까지 구성해줬음  
  트윗 한 줄짜리 프롬프트였는데 15분 만에 완성되었고, 나는 그동안 Kirby Air Riders를 하고 있었음  
  다만 이 과정을 통해 vector search 구축에 대해 **아무것도 배우지 못했다는 점**이 아쉬웠음. 결국 기능 자체가 목적이었고, 학습은 부차적인 일이었음
  - 굳이 오래 걸리는 방식으로 만드는 게 더 효과적인 학습법이라고 생각하지 않음  
    4시간을 들여 직접 만들기보다, 에이전트가 15분 만에 만들어주는 동안 다른 일을 하고, 이후 30분 정도 코드를 읽고 수정하며 질문하는 게 훨씬 효율적임  
    **집중된 30분의 학습**이 4시간의 시행착오보다 더 나을 수도 있음
  - 하지만 그렇게 하면 결국 **유지보수 불가능한 거대한 코드 덩어리**가 생김  
    AI도 어느 순간 코드의 구조를 잃어버리고, 결국 Opus에 종속된 고객이 되어버림
  - Opus나 Anthropic은 확실히 최고 수준이지만, 사용할 때마다 **지적 패스트푸드**처럼 느껴짐  
    예전엔 음악 들으며 Scala로 문제를 푸는 과정이 즐거웠는데, 이제는 너무 쉽게 결과만 얻는 게 오히려 허무함을 줌
  - “기능을 원했지, 만드는 법을 배우고 싶진 않았다”는 말에 완전히 공감함  
    나도 거래 모델을 만들 때 차트를 직접 배우기보단 LLM이 코드를 대신 써주길 원함  
    덕분에 **사소한 API 처리**에 시간을 낭비하지 않고, 진짜 의사결정이 필요한 부분에만 집중할 수 있음
  - 그 vector search 코드, 혹시 **공유 가능**한지 궁금함
- “**긴 작업(long task)** ” 개념을 직접 겪기 전엔 잘 몰랐음  
  Python HTML5 파서를 JavaScript로 포팅하면서 Codex CLI를 9,200개의 html5lib-tests에 돌려봤는데, 4시간 넘게 루프를 돌며 문제를 해결하는 걸 보는 게 인상적이었음  
  관련 글은 [여기](https://simonwillison.net/2025/Dec/15/porting-justhtml/)에 정리했음
  - METR의 “4시간 작업”은 AI가 실제로 4시간 걸린다는 뜻이 아니라, **인간이 4시간 걸릴 난이도**를 의미함  
    Opus 4.5는 이런 수준의 작업을 50% 신뢰도로 수행할 수 있다는 뜻이며, 실제 실행 시간은 훨씬 짧음  
    앞으로 8시간, 40시간 같은 기준을 넘기면 더 흥미로워질 것임
  - 이 지표는 AI의 실제 속도가 아니라 **인간 기준 난이도**를 측정하는 것임  
    벤치마크는 빠르게 깨지만, 실제 업무 자동화는 여전히 어렵다는 점을 잘 보여줌
  - METR의 “human hours equivalent”는 **‘어떤 인간’을 기준으로 하느냐**가 중요함  
    jq나 PyPI 생태계, TypeScript 주석 등에 익숙한 사람이라면 훨씬 빨리 끝낼 수도 있음  
    결국 AI의 매력은 이런 **전문가 수준의 도움을 즉시 받을 수 있다는 점**임
  - 그런데 Codex나 Claude code로 긴 작업을 돌리면 **권한 요청이 너무 자주 뜨고**, 중간에 멈추는 경우가 많음  
    대부분의 모델이 “다음 단계로 넘어가자”고 말하며 스스로 중단함
  - GPT5.2는 특히 **사용자 입력을 과도하게 요구**해서, 2분 이상 연속 작업을 시키기가 어려움  
    혹시 이 문제를 해결한 방법이 있는지 궁금함
- 모델에 대한 평가는 조심스럽지만, **Opus 4.5와 Sonnet 4.5의 차이**는 확실히 느껴졌음  
  예전보다 가격 차이도 줄어서 실사용 가치가 높아졌고, Haiku 4.5도 reasoning을 켜면 꽤 쓸 만함  
  작은 도구나 단일 페이지 편집에는 특히 적합함
- 소프트웨어 학습은 **탐색(exploration)** 과 **활용(exploitation)** 두 단계로 나뉜다고 생각함  
  LLM 덕분에 이 두 단계가 자연스럽게 결합됨  
  예를 들어 AnimeJS 애니메이션을 만들 때, CCAgent가 코드를 작성하는 과정을 보며 배우고, 이후 직접 구조화하고 리팩터링함  
  이렇게 하면 **시간 절약**과 **창의적 통제**를 동시에 얻을 수 있음
- Opus는 GPT 5.1보다 큰 도약처럼 보이지만, **80% 신뢰도 기준**에서는 여전히 GPT 5.1이 우세함  
  즉, 짧은 작업엔 GPT 5.1, 긴 작업엔 Opus가 더 적합함
  - 50% 성공률로는 **비싼 토큰 낭비**가 크지만, 내년쯤엔 오픈소스 모델도 이 수준에 도달할 것이라 기대함
- METR의 핵심은 **‘인간 등가 시간’** 을 기준으로 복잡도를 측정한다는 점임  
  50% 성공률로 4시간짜리 작업을 맡기면 사실상 **도박**에 가깝고, 실패 시 디버깅까지 하면 손실이 큼  
  그래서 30분 단위로 **인간 검토 체크포인트**를 두는 게 좋다고 생각함  
  다만 AI가 중간에 막혔을 때 **스스로 복구할 수 있는 능력**도 중요함
  - 하지만 30분 동안 AI가 만들어내는 결과물이 너무 많아서 검토가 **악몽 수준**임  
    겉보기엔 멀쩡하지만, 나중에야 드러나는 미묘한 버그가 많음  
    그래서 중요한 작업에는 아직 **에이전트를 쓰지 않음**, 오히려 일의 즐거움을 빼앗기 때문임
  - 4시간을 허비했다고 해도, 그 시간 동안 다른 일을 했다면 손해는 아님  
    절반의 확률로 결과를 얻는다면, **시간 대비 효율적인 베팅**일 수도 있음
  - 실패해도 실제로 잃는 건 AI가 작업한 몇 분뿐이라, **프로토타입 탐색용**으로는 훌륭함  
    여러 시도를 빠르게 해볼 수 있고, 실패에서도 배움이 있음
- 95%나 99% 신뢰도 기준의 그래프도 필요함  
  그래야 LLM이 여전히 **인간이 쉽게 하는 일에서 왜 자주 실패하는지**를 더 명확히 볼 수 있음
- 성능 최적화는 AI의 **실질적 지능을 측정하기 좋은 벤치마크**라고 생각함  
  결과를 수치로 검증할 수 있고, 코드가 짧을수록 좋으며, 단순한 조합이 아닌 **시스템적 사고**가 필요함  
  지금까지는 Gemini Pro 3가 SIMD 코드 최적화에서 가장 뛰어났음
- 50% 성공률의 문제는 **재시도 시 확률이 급격히 떨어진다는 점**임  
  4시간짜리 작업을 여러 번 반복하면 성공 확률이 6.25%까지 떨어짐  
  - 다만 “운이 나쁘다”기보단, 한 번 실패한 작업은 **다음 시도에서 성공 확률이 달라질 수도 있음**  
    작업 성격에 따라 다름
