# ClawWork — AI 어시스턴트를 “경제적 책임을 지는 AI 코워커”로 전환하는 벤치마크 프레임워크

> Clean Markdown view of GeekNews topic #26797. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26797](https://news.hada.io/topic?id=26797)
- GeekNews Markdown: [https://news.hada.io/topic/26797.md](https://news.hada.io/topic/26797.md)
- Type: news
- Author: [princox](https://news.hada.io/@princox)
- Published: 2026-02-19T09:50:36+09:00
- Updated: 2026-02-19T09:50:36+09:00
- Original source: [github.com/HKUDS](https://github.com/HKUDS/ClawWork)
- Points: 5
- Comments: 0

## Summary

AI의 **‘경제적 생존력’**을 측정하는 새로운 벤치마크 **ClawWork**가 공개되었습니다. 에이전트는 $10의 초기 자본으로 시작해, 실제 토큰 비용을 지불하며 업무를 수행하고 수익을 벌어야 합니다. 단순한 정확도 대신 ‘돈을 벌 수 있는가’라는 현실적 지표로 AI의 효용을 평가하며, OpenAI의 GDPVal 데이터셋을 기반으로 44개 직군의 실제 업무를 시뮬레이션합니다. AI를 단순 도우미가 아닌 경제적 주체로 바라보는 실험적 시도라는 점에서 개발자들에게 새로운 평가 관점을 제시합니다.

## Topic Body

홍콩대(HKUDS) 연구팀이 2026년 2월 공개한 오픈소스 프로젝트입니다. OpenAI의 GDPVal 데이터셋을 활용해 AI 에이전트가 실제 돈을 벌 수 있는지를 검증하는 시스템입니다. 단순한 챗봇 성능 측정이 아니라, AI가 실제 전문직 업무를 수행하고 수익을 창출할 수 있는지를 경제적 생존이라는 관점으로 측정합니다.  
  
  
#### 핵심 아이디어: 경제적 생존 압박  
에이전트는 $10으로 시작합니다. LLM 호출마다 실제 토큰 비용이 차감되고, 업무를 완료해야만 수익이 들어옵니다. 매일 에이전트는 두 가지를 선택합니다. 즉시 수익을 위해 일할지(work), 장기 성능 향상을 위해 배울지(learn)입니다. 수익 계산도 현실적입니다.  
  
Payment = 품질점수(0.0~1.0) × (예상 소요시간 × BLS 공식 시간당 임금)  
  
  
업무 가치 범위는 $82~$5,004이며 평균은 약 $259입니다.  
  
벤치마크: GDPVal 데이터셋  
OpenAI가 AI의 GDP 기여도 측정을 위해 만든 GDPVal 데이터셋을 사용합니다. 44개 직군, 220개 실제 업무 태스크로 구성되며, 기술·엔지니어링, 비즈니스·금융, 헬스케어, 법무·운영 등 4개 도메인을 커버합니다. 태스크 결과물은 Word, Excel, PDF, 데이터 분석 보고서 등 실제 파일을 제출해야 하며, GPT-4o 기반 LLM 평가로 품질 점수를 매깁니다.  
  
#### 구조  
Nanobot 위에 올라가는 경량 구조이며, 에이전트 툴로는 웹 검색, 파일 생성(.docx/.xlsx/.pdf), Python 코드 실행(E2B 격리 샌드박스), 동영상 생성 등이 포함됩니다. 실시간 React 대시보드에서 잔고 변화·업무 완료·학습 진행을 시각적으로 모니터링할 수 있습니다. Telegram, Discord, Slack 등 9개 채널과 연동도 지원합니다.   
  
#### 한계  
제목의 “$10K in 7 hours”는 격리된 시뮬레이션 환경에서의 등가 수익이며, 평가 자체도 GPT-4o가 수행합니다. OpenAI 모델이 OpenAI 기반 평가자에게 채점받는 구조인 점은 감안할 필요가 있습니다. 공개된 지 얼마 되지 않아 커뮤니티 검증도 아직 부족합니다. 다만 “정확도”가 아닌 “경제적 생존”으로 AI를 평가한다는 프레임 자체는 흥미롭습니다.​​​​​​​​​​​​​​​​

## Comments


_No public comments on this page._