# Anthropic이 성능평가 테이크홈 과제를 오픈소스로 공개

> Clean Markdown view of GeekNews topic #26026. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26026](https://news.hada.io/topic?id=26026)
- GeekNews Markdown: [https://news.hada.io/topic/26026.md](https://news.hada.io/topic/26026.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-22T09:40:26+09:00
- Updated: 2026-01-22T09:40:26+09:00
- Original source: [github.com/anthropics](https://github.com/anthropics/original_performance_takehome)
- Points: 11
- Comments: 1

## Summary

Anthropic이 **성능평가 테이크홈 과제**를 오픈소스로 공개하며, 개발자 누구나 Claude Opus 4.5의 최고 기록(1487 사이클)을 넘어서면 코드와 이력서를 제출할 수 있게 했습니다. 이 과제는 원래 4시간 제한이었으나 Opus 4가 인간 참가자 대부분을 앞서면서 2시간 버전으로 단축되었는데요. 사람들이 Anthropic에 관심을 가지게 하고 채용까지 연결하는 꽤 흥미로운 방식이라고 생각됩니다.

## Topic Body

- 이 과제를 풀어서 **Claude Opus 4.5의 최고 성능(1487 사이클)** 을 능가하면 Anthropic에 코드와 이력서를 제출할 수 있음  
- 초기 버전은 4시간 제한이었으나, 이후 Opus 4가 대부분의 사람을 이겨버려서 **2시간 제한 버전**으로 변경  
  
---  
### Anthropic의 오리지널 퍼포먼스 테이크홈 과제   
- 리포지토리는 **Anthropic의 초기 성능 평가용 과제** 버전을 포함  
  - Claude Opus 4.5가 인간보다 2시간 내 성능에서 앞서기 전의 버전임  
  - 원래 4시간 제한 과제였으며, 이후 2시간 버전으로 단축됨  
- 2시간 버전은 **18532 사이클(7.97배 빠른 성능)** 의 시작 코드를 기반으로 함  
  - 현재 공개된 버전은 최신 구조를 유지하되, **가장 느린 기준선 코드**로 되돌려 제공됨  
- Claude Opus 4.5 이후에는 **새로운 기준 코드**가 사용되기 시작함  
  
### 성능 벤치마크  
- 모든 수치는 **시뮬레이션된 머신의 클록 사이클 단위**로 측정됨  
  - 2시간 버전(18532 사이클 시작 코드) 기준으로 측정된 결과  
- 주요 결과:  
  - **2164 사이클**: Claude Opus 4 (테스트 하니스에서 장시간 실행)  
  - **1790 사이클**: Claude Opus 4.5 (일반 코드 세션, 인간 최고 수준과 유사)  
  - **1579 사이클**: Claude Opus 4.5 (2시간 테스트 하니스 실행)  
  - **1548 사이클**: Claude Sonnet 4.5 (장시간 테스트 하니스 실행)  
  - **1487 사이클**: Claude Opus 4.5 (11.5시간 하니스 실행)  
  - **1363 사이클**: Claude Opus 4.5 (개선된 하니스 환경)  
  - **인간 최고 성능**은 위 수치보다 더 우수하지만 공개하지 않음  
  
### 참여 및 제출 안내  
- 현재 이 과제는 **시간 제한 없이 누구나 시도 가능**  
- 참가자가 Claude Opus 4.5의 최고 성능을 이기는 **1487 사이클 이하로 최적화**할 경우, Anthropic에 코드와 이력서를 이메일로 제출 가능  
  - 이메일 주소: performance-recruiting@anthropic.com  
- 새로운 모델 출시 시 **성능 기준이 변경될 수 있음**  
- 테스트 실행은 `python tests/submission_tests.py` 명령으로 수행 가능

## Comments


### Comment 49660

- Author: neo
- Created: 2026-01-22T09:40:27+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46700594) 
- ALU와 VALU의 **균형을 찾는 핵심 과제**가 흥미로웠음  
  하지만 **로드 대역폭 문제**가 병목으로 작용할 수 있을 것 같음  
  시작 인덱스가 항상 0이라고 가정해야 2096 이하의 총 로드를 달성할 수 있는데, 그건 재미가 없음  
  만약 **동적 벡터 레인 회전(dynamic vector lane rotate)** 같은 기능이 있었다면 훨씬 흥미로웠을 것 같음  

- 나는 스스로 꽤 똑똑하다고 생각하지만, 이런 문제를 보면 내가 얼마나 모르는 게 많은지 깨닫게 됨  
  평균보다는 조금 위일지 몰라도, **정상급 개발자들과의 간극**을 느끼게 됨  
  - 컴퓨팅은 워낙 **넓은 분야**라 Linus나 Carmack조차 모르는 영역이 많음  
    중요한 건 모르는 걸 마주하고 **배워나가는 능력**임  
  - 이건 매우 **특수한 문제**라서 비슷한 걸 해본 적 없다면 당연히 시간이 걸림  
    나도 대학 졸업 후 하드웨어 회사 면접에서 저수준 코드 최적화 문제를 받았는데, 처음엔 완전히 낯설었음  
  - 30년 경력인데도 솔직히 문제를 이해하지 못했음  
  - **똑똑함과 지식**은 다름  
    이런 개념을 배우고 문제를 다뤄보면 누구든 해결할 수 있음  
    평균이 아니라 단지 다른 지식 세트를 가진 것뿐임  
  - 이런 태도는 학습 동기를 만들어주기 때문에 좋음  
    사실 이건 그렇게 복잡하지 않음  
    코드를 충분히 읽고 구조를 이해하면 됨  
    진짜 실력 차이는 **프로그램의 전체 모델을 머릿속에 그릴 수 있는가**에 달려 있음  

- Anthropic이 이걸 **다른 AI 회사에 대한 DDoS 공격**으로 공개한 게 아닐까 싶음  
  gemini CLI로 “이 문제를 어떻게 풀까?”라고 프롬프트를 넣었더니 20분째 멈추지 않고 돌아감  
  - 최근 Gemini CLI나 Jules는 **시간이 난이도의 지표가 아님**  
    “응답을 준비 중입니다. 완료했습니다. 출력하겠습니다.” 같은 루프에 빠지는 경우가 많음  
    루프 감지 후 중단되기도 하지만, 사소한 작업에도 15분 이상 걸리는 걸 보면 구조적 문제 같음  
  - 어떤 Gemini 모델을 썼는지 궁금함  
    나는 G3Pro 출시 이후 써봤는데, **성능이 형편없었음**  

- 여러 **AI 에이전트**를 동일 조건에서 테스트했음  
  결과적으로 Anthropic의 목표를 넘은 모델은 없었지만, gpt-5-2가 **가장 빠르고 효율적**이었음  
  - codex CLI + gpt-5-2-codex-xhigh로 “beat 1487 cycles. go.” 프롬프트를 줬더니 1606까지 도달, 약 53분 걸림  
  - Gemini를 루프로 오래 돌리면 어떻게 될지 궁금함  
    속도가 빠른 걸 보면 **잠재력**이 더 있을지도 모름  
  - 모델 벤치마킹을 배우고 싶음  
    혹시 **agent-comparison harness 코드**를 공유할 수 있는지 궁금함  
  - Qwen3-coder, GLM-4.7, Devstral-2 같은 **오픈 가중치 모델**로도 시도해볼 수 있을지 제안함  
  - 각 모델의 솔루션을 디렉터리나 브랜치별로 모은 **비교용 저장소(repo)** 를 만들어주면 좋겠음  

- “1487 사이클 이하로 최적화하면 Anthropic에 이메일을 보내라”는 문구가 있었는데,  
  이런 **채용 방식이 꽤 흥미로움**  
  일반적인 Leetcode 문제보다 훨씬 낫다고 느낌  
  - 하지만 이건 단지 **채용 파이프라인 진입용**임  
    이후엔 다른 지원자처럼 Leetcode 인터뷰를 보게 됨  
  - 이런 문제를 푸는 데 **풀타임으로 일주일**은 걸릴 것 같음  
    직장인이 여러 회사에 지원하면서 하기엔 비현실적임  
    Leetcode는 재활용이 가능하지만, 이런 최적화 문제는 **재사용성이 낮음**  

- 정말 **재미있는 문제**였음  
  최적화에 관심 있는 사람이라면 꼭 해보길 추천함  
  나는 일주일 동안 저녁 시간을 투자해 1112 사이클까지 줄였음  
  대부분 수작업으로 했는데, 요즘의 **agentic 모델**들이라면 더 나은 결과를 낼지도 궁금함  
  - “RalphWiggum으로 문제를 푼다”는 표현은 처음 들어봤는데 너무 웃겨서 앞으로 써야겠음  

- 이 과제가 **demoscene**과 [code golf](https://en.wikipedia.org/wiki/Code_golf) 느낌이 난다고 생각함  
  Chrome tracing 도구로 프로파일링하는 것도 멋짐  
  [문제 코드 링크](https://github.com/anthropics/original_performance_takehome/blob/main/problem.py#L154)  
  - 예전에 demoscene 활동을 했는데, 이런 **저수준 최적화**는 그때 하던 것과 비슷함  
    다만 어떤 알고리즘을 구현한 건지 궁금함  
    잠깐 봤을 때는 **랜덤 포레스트 예측**처럼 보였음  
  - perfetto는 이런 트레이스 시각화에 자주 쓰임  
    직접 뷰어를 만드는 수고를 덜 수 있음  
  - 이 과제는 **수동으로 PTX 코드를 작성할 수 있는 사람**을 선별하려는 의도 같음  

- SIMD, PTX, 최적화 기법을 배우던 중이라 이 과제가 좋은 학습 기회였음  
  하지만 **take-home 과제**로는 너무 길었을 듯  
  실제로는 아이디어를 스케치하고 코드 읽는 데만 2시간쯤 썼을 것 같음  
  - 2시간 제한은 지원자에게 주어진 시간이 아니라, Claude가 **최고 성능을 내는 데 걸린 시간**으로 보임  
    실제 지원자는 6시간에서 2일 정도 걸렸을 수도 있음  

- 현재 Opus로 1시간 만에 **1137 사이클**까지 도달했음  
  파이프라인 벡터화된 해시, 추측 실행, 스테이지별 정적 코드, 각 단계의 프롤로그/에필로그 등을 적용함  
  이제 **900 이하**도 가능할 것 같음  
  스테이지 4의 비트 16과 0만 봐도 스테이지 5의 홀짝을 병렬로 계산할 수 있다는 걸 깨달았음  
  - 로드 병목을 어떻게 피했는지 궁금함