1P by princox 10시간전 | ★ favorite | 댓글과 토론

미국에 METR이라는 비영리 연구기관이 있습니다.
미국 캘리포니아주 버클리에 위치한 비영리 연구 기관으로, 프론티어 AI 모델이 장기적·자율적 작업을 수행하는 능력을 평가합니다.

일부 연구자들은 이런 능력이 사회에 심각한 위험을 초래할 수 있다고 경고하며, METR은 바로 그 위험성을 측정하는 역할을 합니다.

METR의 연구는 크게 세 가지 축으로 구성됩니다.

첫째, AI 에이전트가 수 시간에 걸친 다양한 작업을 자율적으로 완료하는 능력을 측정하는 광범위한 자율 역량 평가.

둘째, AI가 AI R&D 자체를 가속할 수 있는 능력 평가.

셋째, 평가의 무결성을 위협하는 AI 행동(예: 샌드배깅, 보상 해킹)과 그 대응책 연구.

특히 METR이 발표한 시간 지평(Time Horizon) 연구는 AI 에이전트가 완료할 수 있는 작업 길이가 지난 6년간 약 7개월마다 두 배씩 증가해왔음을 밝혀냈으며, 이 연구는 AI가 언제 변혁적 영향을 미칠지 예측하는 핵심 근거 자료로 활용되고 있습니다.

아래는 URL로 들어가면 나오는 페이지의 기계 번역본입니다.

개요

작업 완료 시간 지평(task-completion time horizon) 이란, AI 에이전트가 주어진 신뢰도 수준으로 성공할 것으로 예측되는 작업 소요 시간(인간 전문가 완료 시간 기준)입니다. 예를 들어, 50%-시간 지평은 에이전트가 절반의 확률로 성공할 것으로 예측되는 작업 길이입니다. 아래 그래프는 100개 이상의 다양한 소프트웨어 작업에서의 성능을 기반으로 계산된 프론티어 AI 에이전트의 50%- 및 80%-시간 지평을 보여줍니다.

우리는 공개된 프론티어 AI 모델의 시간 지평 측정값을 주기적으로 업데이트합니다. 용량 한계로 인해 일부 모델은 출시 후 일정 시간이 지난 후에 측정되거나, 일부 출시는 완전히 건너뛸 수도 있습니다.

방법론 및 결과에 대한 전체 논의는 논문 및 블로그 포스트를 참조하세요.


방법론 세부 사항

프론티어 AI 에이전트의 시간 지평을 추정하기 위해, 먼저 각 작업을 인간 전문가가 완료하는 데 걸리는 시간을 추정합니다. 각 에이전트에 대해 로지스틱 곡선을 피팅하여 인간 작업 소요 시간의 함수로서 작업 성공 확률을 예측합니다. 50%-시간 지평(또는 80%-시간 지평)을 구하기 위해, 피팅된 곡선이 50%(또는 80%) 성공 확률과 교차하는 작업 소요 시간을 찾습니다.

작업 분포: 작업은 RE-Bench, HCAST, 그리고 짧은 소프트웨어 작업들로 구성됩니다. 주로 소프트웨어 엔지니어링, 머신러닝, 사이버보안 작업으로 이루어져 있으며, 독립적이고 명확하게 정의되어 자동으로 평가 가능한 명확한 성공 기준을 가집니다.

인간 작업 소요 시간 추정: 대부분의 작업에 대해, 인간을 고용하여 작업을 시도하게 하고 성공적인 완료 시간의 기하 평균을 취합니다. 이 인간들은 AI 에이전트와 동일한 지시사항과 환경을 제공받으며, 최대한 빠르게 작업을 완료하도록 요청됩니다. 우리의 인간 작업 소요 시간 추정치는 실제 전문가보다 과대추정될 가능성이 있는데, 이는 해당 인간(및 AI 에이전트)이 일상 업무에서 동등한 작업을 수행하는 전문가보다 작업에 대한 맥락 정보가 훨씬 적기 때문입니다.


자주 묻는 질문 (FAQ)

Q. "시간 지평"은 현재 AI 에이전트가 자율적으로 행동할 수 있는 시간을 의미하나요?

아닙니다. 50%-시간 지평은 AI 에이전트가 50% 신뢰도로 완료할 수 있는 작업의 길이(인간 전문가 기준)입니다. AI가 작업을 완료하는 데 걸리는 실제 시간이 아니라, 작업의 난이도를 측정하는 지표입니다.

Q. AI 에이전트가 2시간짜리 작업을 완료하는 데 실제로 얼마나 걸리나요?

모델, 작업, 에이전트 설정에 따라 다르지만, AI 에이전트는 일반적으로 인간보다 몇 배 더 빠릅니다. AI 에이전트는 코드를 반복 작업 없이 한 번에 작성하는 경우가 많고, 검색해야 할 것도 더 적습니다. 또한 많은 AI 에이전트가 인간 소프트웨어 엔지니어보다 훨씬 빠르게 코딩합니다.

Q. 작업 소요 시간 추정은 어떤 인간을 기준으로 하나요?

소프트웨어 엔지니어링, 머신러닝, 사이버보안 분야의 숙련된 전문가들로, 대부분 세계 상위 100개 대학 출신입니다. 평균 약 5년의 관련 경력을 보유하고 있습니다. 우리의 2시간 작업은 "프로젝트에 이미 익숙한 숙련 전문가"가 아니라, "사전 맥락이 거의 없는 신입 직원이나 프리랜서 계약자"가 2시간 안에 완료할 수 있는 작업으로 이해하는 것이 더 적절합니다.

Q. 2시간 시간 지평이면 AI가 인간이 2시간 안에 할 수 있는 모든 지적 작업을 수행할 수 있다는 의미인가요?

아닙니다. 우리의 작업 분포는 주로 소프트웨어 엔지니어링, 머신러닝, 사이버보안 작업으로 구성됩니다. 후속 연구에서 다양한 도메인에 걸쳐 AI 시스템의 시간 지평이 어떻게 달라지는지 조사했으며, 다른 도메인에서도 비슷한 지수적 트렌드를 발견했지만 절대적인 시간 지평 수치는 다릅니다. AI 능력은 인간 대비 '들쭉날쭉(jagged)'하며, 경제적으로 가치 있는 모든 작업의 시간 지평은 여러 자릿수에 걸쳐 분포할 것으로 예상됩니다.


📊 그래프 해석

메인 그래프 (이미지 1, 6)

GPT-2(2019년)부터 Claude Opus 4.6(2026년 2월)까지의 궤적을 보면, AI의 시간 지평이 거의 0분에서 약 14시간 30분으로 폭발적으로 성장했음을 알 수 있습니다. 특히 2024~2026년 구간에서 곡선이 가파르게 꺾이고 있어, 최근 1~2년간의 능력 향상이 이전 수년치를 압도합니다.

다중 도메인 그래프 (이미지 5)

METR-HRS(소프트웨어), MATH, GPQA, Mock AIME, SWE-bench 등 다양한 벤치마크에서 모두 시간 지평이 지수적으로 증가하고 있음을 보여줍니다. 도메인마다 절대값은 다르지만 상승 트렌드 자체는 공통적입니다.


🔑 "14시간 30분" 해석 — 핵심 질문

"Fix complex bug in ML research codebase"를 Claude Opus 4.6이 14.5시간을 달성했다는 게 무슨 의미인가?"

이것이 가장 오해하기 쉬운 부분입니다. 정확히 설명드리면:

오해 정확한 해석
"Claude Opus 4.6이 14.5시간 동안 작업했다"
"Claude Opus 4.6이 14.5시간짜리 난이도의 작업을 50% 확률로 성공한다"

14시간 30분은 AI가 소요한 시간이 아니라, 그 작업의 인간 기준 난이도입니다.

구체적으로 풀어보면 이렇습니다:

  1. METR이 "ML 연구 코드베이스의 복잡한 버그 수정"이라는 작업을 선정
  2. 숙련된 인간 전문가 여러 명에게 이 작업을 시켰더니 평균 약 14시간 30분 소요
  3. Claude Opus 4.6에게 이 동일한 작업을 반복적으로 수행시켰더니 절반의 확률(50%)로 성공
  4. 따라서 "Claude Opus 4.6의 50%-시간 지평 = 14시간 30분"

실제로 Claude Opus 4.6이 이 작업을 처리하는 데 걸리는 시간은 인간보다 훨씬 짧을 것입니다(FAQ에 따르면 AI는 보통 인간보다 수 배 빠름).


💡 함의 요약

METR의 시간 지평 데이터는 AI 에이전트의 자율 작업 수행 능력이 지수적 속도로 확장되고 있음을 객관적으로 증명하며, Claude Opus 4.6이 숙련된 인간 전문가 기준으로 14시간 이상이 소요되는 복잡한 소프트웨어·ML·사이버보안 작업을 절반의 확률로 성공적으로 완수할 수 있다는 사실은, AI가 단순 보조 도구를 넘어 전문 지식 노동의 상당 부분을 실질적으로 대체하거나 자동화할 수 있는 임계점에 도달했음을 시사하며, 이 트렌드가 지속될 경우 소프트웨어 개발·보안·연구 등 고숙련 지식 산업 전반에 걸쳐 인간 노동의 역할과 가치에 대한 근본적인 재정의가 불가피하다는 점을 강력히 함의합니다.


26년 2월에 업데이트 된 Opus 4.6이 14.5시간의 인간 전문가의 문제를
50% 확률로 성공할 것이라고 합니다.

엄청난 그래프라고 생각하고 미래에는 점차 AI 기반으로 모든 업무가 자동화되고 진행될 것이라는 생각에 업로드해봅니다.