# Autoresearch - Karpathy의 자동 연구 프레임워크

> Clean Markdown view of GeekNews topic #27300. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27300](https://news.hada.io/topic?id=27300)
- GeekNews Markdown: [https://news.hada.io/topic/27300.md](https://news.hada.io/topic/27300.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-08T10:11:02+09:00
- Updated: 2026-03-08T10:11:02+09:00
- Original source: [github.com/karpathy](https://github.com/karpathy/autoresearch)
- Points: 50
- Comments: 3

## Summary

**Autoresearch**는 Karpathy가 공개한 **자율 연구 프레임워크**로, 단일 GPU·단일 파일 구조에서 AI 에이전트가 스스로 LLM 학습 코드를 수정하고 실험을 반복하는 630라인 짜리 코드입니다. 인간은 `프롬프트`로 연구 방향만 제시하며, 에이전트는 5분 단위의 고정 시간 예산 안에서 모델 아키텍처와 하이퍼파라미터를 탐색해 더 낮은 validation loss를 달성할 때마다 코드를 개선하고 git 커밋을 남깁니다. 복잡한 분산 설정 없이도 ‘밤새 스스로 발전하는 연구 루프’를 구현할 수 있는 점이 특징입니다.

## Topic Body

- **nanochat LLM 학습 코어를 단일 GPU·단일 파일 약 630줄로 압축**한 자기완결형 자율 연구 프레임워크로 **AI 에이전트가 밤새 자율적으로 LLM 학습 실험을 반복**  
- 인간은 `프롬프트`를 수정하고, AI 에이전트는 **`학습 코드`를 수정** → **5분 고정 시간 예산**으로 학습 → 결과 비교 → 유지 또는 폐기의 루프를 반복  
- 에이전트는 git 피처 브랜치에서 자율 루프로 동작하며, 신경망 아키텍처·옵티마이저·하이퍼파라미터 등의 더 낮은 **validation loss**를 달성할 때마다 학습 스크립트에 git 커밋을 축적  
- 목표는 인간의 개입 없이 가장 빠른 연구 진전을 만들어내는 에이전트를 설계하는 것  
  
---  
  
### 프로젝트 개요  
  
- **nanochat**의 단순화된 단일 GPU 구현을 기반으로, AI 에이전트가 학습 코드를 자율 수정·실험하는 구조  
- 에이전트는 코드 수정 → 5분 학습 → 결과 확인 → 유지/폐기 루프를 반복하며, 사용자는 아침에 실험 로그와 개선된 모델을 확인  
- Claude, Codex 등 원하는 에이전트를 이 레포에 연결하고, `program.md`를 읽게 한 뒤 실험을 시작하는 방식  
  
### 핵심 파일 구조 (3개만 중요)  
  
- **`prepare.py`** - 고정 상수, 데이터 준비(학습 데이터 다운로드, BPE 토크나이저 학습), 런타임 유틸리티(데이터로더, 평가) 포함; 수정 대상 아님  
- **`train.py`** - 에이전트가 수정하는 단일 파일; GPT 모델 전체, 옵티마이저(Muon + AdamW), 학습 루프 포함; 아키텍처·하이퍼파라미터·옵티마이저·배치 사이즈 등 모든 요소 수정 가능  
- **`program.md`** - 에이전트에 대한 기본 지침 파일; 인간이 편집하며, 에이전트의 자율 연구 방향을 설정하는 **경량 스킬** 역할  
  
### 설계 원칙  
  
- **단일 파일 수정**: 에이전트는 `train.py`만 수정하며, 변경 범위를 관리 가능하게 유지하고 diff 검토가 용이  
- **고정 시간 예산**: 플랫폼에 무관하게 항상 정확히 5분 실행 → 시간당 약 12회, 수면 중 약 100회 실험 가능  
  - 모델 크기, 배치 사이즈, 아키텍처 등 변경 사항과 무관하게 실험 간 직접 비교 가능  
  - 단점: 동일 플랫폼이 아닌 다른 사람의 실행 결과와는 비교 불가  
- **자기완결성**: PyTorch 및 소수 패키지 외 외부 의존성 없음; 분산 학습 없음; 복잡한 설정 없음  
  
### 요구 사항 및 실행  
  
- **요구 사항**: 단일 NVIDIA GPU(H100 테스트), Python 3.10+, `uv` 패키지 매니저  
- 현재 NVIDIA GPU 전용이며, CPU/MPS 등 다른 플랫폼 지원은 코드 비대화 우려로 현재 포함하지 않음  
  - 더 넓은 플랫폼 지원이 필요한 경우 상위 nanochat 레포 참조 권장; macOS 포크(`miolini/autoresearch-macos`)가 이미 존재  
- 에이전트 실행 시 레포 내에서 Claude/Codex 등을 실행하고 모든 권한을 비활성화한 뒤, `program.md`를 읽고 실험을 시작하도록 프롬프트  
  
### 기본 program.md 설계 의도  
  
- 기본 `program.md`는 의도적으로 **최소한의 베이스라인**으로 유지  
- 시간이 지남에 따라 반복 개선하며 가장 빠른 연구 진전을 달성하는 "연구 조직 코드"를 찾아가는 방식으로 활용 가능  
- 에이전트를 추가하거나 지침을 구체화하는 확장도 명확히 가능한 구조

## Comments



### Comment 52606

- Author: tensun
- Created: 2026-03-08T17:53:41+09:00
- Points: 1

Amd ROCm 도 해주세요

### Comment 52591

- Author: xguru
- Created: 2026-03-08T10:47:04+09:00
- Points: 1

[Karpathy 의 소개 트윗](https://x.com/karpathy/status/2030371219518931079)  
> 주말 동안 사용해 보고 싶은 분들을 위해 준비했습니다.  
> 코드와 공상 과학, 그리고 약간의 정신병이 섞인 작품입니다 :)  
  
왜 주말에 이런 짓을 해요 선생님

### Comment 52727

- Author: laeyoung
- Created: 2026-03-10T08:54:36+09:00
- Points: 1
- Parent comment: 52591
- Depth: 1

강의 자료 outdated 안되게 빨리 만들어서 유레카랩 강의 출시하려고, 계속 만드시는거 같아요ㅠ  
  
ps. 7시간 전에 [AgentHub](https://github.com/karpathy/agenthub)라고 또 하나 맹글어서 올리셨네요 🫢
