ClawWork — AI 어시스턴트를 “경제적 책임을 지는 AI 코워커”로 전환하는 벤치마크 프레임워크
(github.com/HKUDS)홍콩대(HKUDS) 연구팀이 2026년 2월 공개한 오픈소스 프로젝트입니다. OpenAI의 GDPVal 데이터셋을 활용해 AI 에이전트가 실제 돈을 벌 수 있는지를 검증하는 시스템입니다. 단순한 챗봇 성능 측정이 아니라, AI가 실제 전문직 업무를 수행하고 수익을 창출할 수 있는지를 경제적 생존이라는 관점으로 측정합니다.
핵심 아이디어: 경제적 생존 압박
에이전트는 $10으로 시작합니다. LLM 호출마다 실제 토큰 비용이 차감되고, 업무를 완료해야만 수익이 들어옵니다. 매일 에이전트는 두 가지를 선택합니다. 즉시 수익을 위해 일할지(work), 장기 성능 향상을 위해 배울지(learn)입니다. 수익 계산도 현실적입니다.
Payment = 품질점수(0.0~1.0) × (예상 소요시간 × BLS 공식 시간당 임금)
업무 가치 범위는 $82~$5,004이며 평균은 약 $259입니다.
벤치마크: GDPVal 데이터셋
OpenAI가 AI의 GDP 기여도 측정을 위해 만든 GDPVal 데이터셋을 사용합니다. 44개 직군, 220개 실제 업무 태스크로 구성되며, 기술·엔지니어링, 비즈니스·금융, 헬스케어, 법무·운영 등 4개 도메인을 커버합니다. 태스크 결과물은 Word, Excel, PDF, 데이터 분석 보고서 등 실제 파일을 제출해야 하며, GPT-4o 기반 LLM 평가로 품질 점수를 매깁니다.
구조
Nanobot 위에 올라가는 경량 구조이며, 에이전트 툴로는 웹 검색, 파일 생성(.docx/.xlsx/.pdf), Python 코드 실행(E2B 격리 샌드박스), 동영상 생성 등이 포함됩니다. 실시간 React 대시보드에서 잔고 변화·업무 완료·학습 진행을 시각적으로 모니터링할 수 있습니다. Telegram, Discord, Slack 등 9개 채널과 연동도 지원합니다.
한계
제목의 “$10K in 7 hours”는 격리된 시뮬레이션 환경에서의 등가 수익이며, 평가 자체도 GPT-4o가 수행합니다. OpenAI 모델이 OpenAI 기반 평가자에게 채점받는 구조인 점은 감안할 필요가 있습니다. 공개된 지 얼마 되지 않아 커뮤니티 검증도 아직 부족합니다. 다만 “정확도”가 아닌 “경제적 생존”으로 AI를 평가한다는 프레임 자체는 흥미롭습니다.