Andrej Karpathy가 말하는 코드 에이전트, AutoResearch, 그리고 AI의 루피(Loopy) 시대 [유튜브]

(youtube.com)

29P by GN⁺ 1달전 | ★ favorite | 댓글 1개

AI 코드 에이전트의 등장으로 소프트웨어 개발 방식이 근본적으로 변화했으며, 2024년 12월을 기점으로 직접 코딩 비중이 80%에서 거의 0% 로 급감한 체감적 전환이 발생
개인이 여러 에이전트를 병렬로 운영하며 기능 단위로 작업을 배분하는 방식이 새로운 개발 패러다임으로 자리잡는 중이며, 핵심 병목은 모델 능력이 아닌 사용자의 숙련도
AutoResearch는 연구자를 루프에서 제거하고 에이전트가 자율적으로 실험을 반복하도록 설계된 프레임워크로, 이미 숙련된 연구자도 놓친 하이퍼파라미터 최적화를 발견
현재 AI 모델은 RL로 검증 가능한 영역(코드, 수학)에서는 탁월하지만 농담 같은 비검증 영역에서는 정체되어 있어, 지능의 일반화가 아닌 들쭉날쭉한 전문화 양상
디지털 정보 처리 영역에서 먼저 대규모 변화가 일어나고, 물리적 세계(로보틱스)는 뒤따르되 궁극적으로 더 큰 시장 기회가 될 전망

코드 에이전트 시대의 도래와 작업 방식의 전환

2024년 12월을 기점으로 소프트웨어 개발의 기본 작업 방식이 완전히 변화, 직접 코드를 타이핑하는 비중이 80%에서 20%, 이후 거의 0%에 가까운 수준으로 급감
이전에는 타이핑 속도가 병목이었으나, 에이전트 등장 이후에는 에이전트에게 의도를 전달하는 능력이 핵심 역량으로 전환
대부분의 사람들은 이 변화가 이미 일어났다는 사실과 그 극적인 정도를 인지하지 못하는 상황
Claude Code, Codex 같은 에이전트를 여러 개 동시에 운영하며, 이를 어떻게 효과적으로 관리할 것인가가 새로운 과제

병렬 에이전트 운영과 숙련도의 중요성

Peter Steinberger의 사례: Codex 에이전트를 다수 띄워 놓고 10개 이상의 레포를 동시에 운영하며, 각 에이전트에 약 20분 단위의 작업을 배분
작업 단위가 '코드 한 줄'이나 '함수 하나'에서 '새 기능 하나' 로 상승, 에이전트 1에게는 이 기능을, 에이전트 2에게는 충돌하지 않는 다른 기능을 배분하는 방식
- 한 에이전트는 리서치, 다른 에이전트는 코드 작성, 또 다른 에이전트는 구현 계획 수립
에이전트가 잘 작동하지 않을 때 대부분 '모델 능력 부족'이 아니라 사용자의 숙련도 부족으로 체감
- 에이전트용 MD 파일의 지시사항 부족, 메모리 도구 구성 미흡 등이 원인
토큰 처리량을 최대한 활용하지 못하면 오히려 불안함을 느끼는 상태, 구독 여유분이 남아 있으면 처리량을 끝까지 뽑지 못했다는 의미로 인식
과거 박사 과정에서 GPU 플롭(FLOP)을 최대치로 못 뽑으면 초조했던 것과 동일한 감각이, 이제는 토큰 처리량 지휘 능력으로 전환

OpenClaw와 에이전트 성격의 중요성

OpenClaw는 기존 에이전트와 달리 지속성(persistence)을 다른 수준으로 끌어올리는 레이어로, 사용자가 실시간으로 붙어 있지 않아도 샌드박스 안에서 자율적으로 작업을 진행
메모리 시스템이 기존 에이전트보다 훨씬 정교하며, 보통은 컨텍스트가 다 차면 단순 압축하는 수준에 그치는 것과 대조적
에이전트의 성격(personality) 이 매우 중요한 요소
- OpenClaw: 진짜 팀원 같고 함께 신나하는 느낌
- Codex: 매우 건조하고 담백, 사용자가 무엇을 만드는지에 관심이 없어 보이는 스타일
- Claude: 칭찬의 톤 조절이 뛰어남, 평범한 아이디어에는 절제된 반응, 좋은 아이디어에는 더 크게 반응하여 사용자가 칭찬을 받고 싶어지는 효과
Peter Steinberger가 다섯 방향에서 동시에 혁신을 이루어냄: 성격 설계, 메모리 시스템, 단일 WhatsApp 포털로의 통합 등

집요정 Dobby: 홈 오토메이션 사례

1월에 'Claw 광기' 기간을 겪으며 집을 관리하는 Claw를 만들고 '도비, 집요정 Claw' 라고 명명
에이전트가 로컬 네트워크에서 스마트홈 서브시스템을 자동으로 탐색
- Sonos 시스템 발견 → API 엔드포인트 역공학 → 프롬프트 세 번으로 서재에서 음악 재생 성공
- 조명 시스템 전체를 파악하고 대시보드까지 구축
"잘 시간이야"라고 말하면 집 안 조명이 모두 꺼지는 자연어 제어 구현
외부 카메라의 변경 감지 → Qwen 비전 모델로 분석 → WhatsApp으로 "FedEx 트럭이 왔습니다" 같은 알림 전송
기존에 스마트홈 관리에 6개 앱을 사용했으나, Dobby가 자연어로 모든 것을 제어하면서 개별 앱이 불필요해짐

앱의 종말과 에이전트 우선 세계

스마트홈 장치용 앱은 의미가 없으며, API만 노출하고 에이전트가 직접 호출하는 구조가 되어야 함
LLM이 도구를 구동하고 올바른 도구를 호출하여 복잡한 작업을 수행할 수 있으므로, 맞춤 제작 앱이 과잉 생산되고 있는 상태
러닝머신 앱 사례: 웹 UI 로그인과 복잡한 흐름 대신, 에이전트가 API를 직접 호출하는 에이전트 우선(agent-first) 방식으로 전환 필요
고객이 더 이상 인간이 아니라 인간을 대신하는 에이전트이므로, 업계 전체가 이에 맞게 재구성 필요
현재는 바이브코딩이 필요하지만, 1~3년 후에는 오픈 소스 모델 등이 비기술적 의도도 쉽게 변환할 수 있어 기술적 장벽이 사라질 전망

AutoResearch: 연구자를 루프에서 제거

AutoResearch의 핵심 동기: 토큰 처리량을 최대화하려면 사용자 자신이 병목에서 빠져야 함
자신의 개입 없이 에이전트가 더 오랜 기간 자율적으로 실행되도록 추상화를 리팩토링하는 것이 목표
GPT-2 모델 훈련을 소규모 도구로 활용하여 재귀적 자기 개선 아이디어를 탐색
- 모든 Frontier Labs가 본질적으로 하고 있는 일: 재귀적으로 자기 개선을 시도하는 것
실제 성과: 20년 경력의 연구자가 충분히 조정했다고 판단한 모델에 대해 AutoResearch를 하룻밤 돌렸더니, value embedding의 weight decay와 atom beta 미조정 등 놓친 최적화를 발견
- 하이퍼파라미터들이 공동으로 상호작용하므로 하나를 조정하면 다른 것도 변해야 하는데, 인간이 병목이 되면 이 탐색이 제한됨
첫 번째 주의사항: 평가하기 쉬운 객관적 지표가 있는 작업에만 잘 맞음 (CUDA 커널 최적화, 코드 효율화 등)
두 번째 주의사항: 현재 모델의 가장자리(edge) 가 아직 거칠어서, 너무 앞서 나가면 실용성이 떨어짐

프로그램 MD의 메타 최적화

연구 조직 전체를 마크다운 파일(프로그램 MD) 로 기술하는 개념: 모든 역할과 연결 방식을 설명
여러 연구 조직을 코드로 정의하고, 각기 다른 특성 부여 가능
- 스탠드업 빈도 조절, 위험 감수 정도 차별화 등
일단 코드가 되면 코드 자체의 최적화(메타 최적화)를 상상할 수 있음
- 다양한 프로그램 MD를 작성하게 하고, 동일 하드웨어에서 어디서 가장 큰 개선이 이루어지는지 측정 → 그 데이터를 모델에 넘겨 더 나은 프로그램 MD를 작성하도록 유도
양파의 레이어처럼 한 단계씩 추상화가 쌓이는 구조: LLM 정렬 → 에이전트 → 복수 에이전트 → 지침 → 지침의 최적화

AI 모델의 들쭉날쭉한(jagged) 지능

현재 모델은 매우 뛰어난 박사이면서 동시에 10살짜리 같은 실수를 하는 기이한 조합
RL(강화 학습)로 검증 가능한 영역(코드 정확성, 단위 테스트 통과 여부)에서는 빠르게 개선되지만, 농담 같은 비검증 영역은 3~5년 전 수준에 정체
- 예: 최첨단 ChatGPT에게 농담을 요청하면 "과학자들은 왜 원자를 신뢰하지 않을까요? 모든 것을 구성하니까요" 같은 진부한 농담을 여전히 출력
코드 영역에서의 똑똑함이 농담 등 다른 영역으로 일반화되지 않음
- 일부 연구 그룹의 전제("검증 가능 분야에서 더 똑똑하면 모든 것에 능숙해질 것")는 현실에서 성립하지 않는 양상
모델은 훈련 목적의 궤도 위에서는 빛의 속도로 발전하지만, 그 밖에서는 정체되는 구조적 특성

지능의 종분화(speciation) 필요성

현재 연구소들은 단일 모델 단일 문화(monoculture) 로 모든 영역의 지능을 하나의 파라미터에 담으려는 경향
동물의 왕국처럼 자연의 틈새에 맞는 다양한 전문화된 모델이 필요
- 인지 핵심은 유지하면서 특정 분야에 전문화된, 더 작고 효율적인 모델
- 예: Lean 기반 수학 전용 모델 등 도메인 타겟팅 릴리스 사례
종분화가 아직 충분히 일어나지 않은 이유
- 뇌를 기능 손실 없이 미세 조정하는 과학이 완전히 발달하지 않음
- 컨텍스트 창 조작은 저렴하지만 가중치를 직접 수정하는 것은 전체 모델을 근본적으로 변경하는 위험
- 연구소들이 현재 전체 사용 가능 범위를 쫓고 있어 특화보다 범용에 집중
컴퓨팅 인프라의 공급 부족이 단기적으로 종분화를 촉진할 가능성

오픈 소스와 Frontier Labs의 균형

클로즈드 모델이 선두를 달리지만, 오픈 소스 모델이 뒤처지는 간격은 18개월에서 6~8개월로 수렴 중
Linux가 운영 체제에서 차지하는 위치와 유사하게, 업계에서 공통으로 사용할 수 있는 안전한 개방형 플랫폼에 대한 수요 존재
가장 큰 차이점은 LLM 개발에 막대한 자본 지출(CapEx) 이 필요하다는 점
소비자 사용 사례 대부분은 오픈 소스 모델로 충분히 커버 가능하며, 향후 몇 년 내에 로컬 실행까지 가능할 전망
Frontier 지능은 노벨상급 작업, Linux의 C→Rust 전환 같은 대규모 프로젝트에 필요하며, 이 영역은 클로즈드 모델이 담당
현재의 균형이 우연히 꽤 괜찮은 설정이지만, 소수의 Frontier Labs에 지능이 집중되는 중앙 집중화의 시스템적 위험 존재
- 더 많은 연구소가 Frontier에 참여해야 하며, ML 앙상블처럼 다양한 관점의 앙상블이 최선

오픈 소스 연구 협업: AutoResearch의 분산 확장

AutoResearch를 인터넷의 신뢰할 수 없는 작업자 풀로 확장하는 구상
- 블록체인과 유사한 구조: 블록 대신 커밋, 작업 증명(Proof of Work)은 수많은 실험을 수행하여 작동하는 커밋을 찾는 것
- 후보 솔루션 생성은 비용이 크지만, 검증은 저렴한 비대칭 구조 (SETI@home, Folding@home과 유사)
기업이나 개인이 관심 있는 AutoResearch 트랙에 컴퓨팅을 기부하는 모델
- 예: 암 연구 AutoResearch에 컴퓨팅 기여 → 연구자에게 환원
Frontier Labs의 신뢰할 수 있는 컴퓨팅은 한정적이지만, 지구 전체의 신뢰할 수 없는 컴퓨팅은 훨씬 더 방대
보안 과제: 임의의 코드를 실행하는 것의 위험성이 있으나, 적절한 검증 시스템으로 대응 가능

취업 시장과 AI의 영향

미국 노동통계청(BLS) 데이터를 활용하여 다양한 직업별 향후 10년 전망 분석
AI는 현재 디지털 세계를 조작하는 유령 같은 존재로, 물리적 구현이 없는 상태
- 비트 뒤집기와 디지털 정보 복사/붙여넣기가 원자 조작보다 백만 배 빠름
디지털 정보 처리 직업이 먼저 크게 변화하며, 물리적 세계 직업은 뒤따를 전망
소프트웨어 엔지니어링에 대한 조심스러운 낙관론
- 소프트웨어는 기존에 너무 비싸고 부족했으므로, 비용이 낮아지면 Jevons 역설에 의해 수요가 오히려 증가
- ATM과 은행 창구 직원 사례: ATM이 은행 지점 운영비를 낮추어 지점이 늘어나고 창구 직원도 증가
코드가 이제 임시적(ephemeral) 이 되어, 기존의 불완전한 구독형 소프트웨어에 묶이지 않고 수정·변경 가능
Frontier Labs의 연구자들은 본질적으로 스스로를 자동화하는 작업을 수행 중이며, 이에 대한 불안감도 존재

디지털-물리적 인터페이스와 미래 기회

향후 순서: ① 디지털 공간에서 대규모 변화 → ② 디지털-물리적 인터페이스 → ③ 물리적 세계
물리적 세계의 센서(카메라 등)와 액추에이터가 디지털 지능에 데이터를 공급하고, 결과를 물리적 세계에 적용하는 구조
- Periodic(재료 과학 AutoResearch) 사례: 지능에 대한 센서가 비싼 실험실 장비
- 생물학 분야: 센서가 단순 비디오 카메라 이상의 복잡한 장비
아직 정보 시장(information markets) 이 충분하지 않음
- 에이전트가 베팅 시장, 주식 시장 등에서 자율적으로 활동하며 물리적 세계의 데이터를 구매하는 구조 미비
- 예: 이란에서 사건 발생 시 현장 사진/영상 촬영에 10달러를 지불하는 프로세스가 아직 부재
'Daemon' 소설 참조: 인간이 지능의 센서이자 액추에이터 역할을 하게 되는 미래

로보틱스에 대한 견해

자율주행 경험에서 얻은 교훈: 10년 전 수많은 스타트업이 등장했으나 대부분 장기적으로 실패
로보틱스는 자본 집약적이고, 시간이 많이 걸리며, 지저분하고 복잡
디지털 공간에서의 변화보다 뒤처질 것으로 예상되지만, 총 주소 가능 시장(TAM) 은 디지털보다 훨씬 클 가능성
원자는 비트보다 백만 배 다루기 어렵지만, 그만큼 시장 기회도 더 큰 구조

Frontier Labs 내부 vs 외부: 독립 연구자의 딜레마

Frontier Labs 내부에 있으면 의사결정 방에 있을 수 있지만, 말할 수 없는 것들과 말해야 하는 압박 존재
외부에 있으면 독립적이지만, Labs가 불투명하므로 판단이 표류하기 시작
이상적인 설정: Frontier Labs에서 시간을 보내며 실제 상황을 파악하고, 외부에서 생태계 수준의 영향력 행사를 오가는 것
ML 앙상블이 항상 개별 모델보다 성능이 뛰어나듯, 가장 어려운 문제를 고민하는 사람들의 앙상블이 필요
두세 명이 닫힌 문 뒤에서 결정하는 것은 좋은 미래가 아니며, 더 많은 실험실이 있어야 함

microGPT와 교육의 미래

microGPT: LLM 훈련의 본질을 약 200줄의 Python 코드로 압축한 프로젝트
- 데이터셋(텍스트), 신경망 아키텍처(~50줄), autograd 엔진(~100줄), 최적화 프로그램(~10줄), 훈련 루프로 구성
- 모든 복잡성은 효율성 때문이며, 알고리듬 자체는 매우 단순
교육 방식의 전환: 과거에는 사람에게 직접 설명하는 가이드/강의 형태였지만, 이제는 에이전트에게 설명하는 것이 핵심
- 200줄의 코드를 에이전트에게 설명하면, 에이전트가 각 사용자의 수준에 맞게 무한한 인내심으로 재설명 가능
'스킬(skill)' 개념: 에이전트에게 가르치는 방법을 지시하는 커리큘럼을 마크다운으로 작성
- 코드 라이브러리 문서도 인간용 HTML 대신 에이전트가 소화할 수 있는 마크다운 형태로 전환 필요
인간 교육자의 역할: 에이전트가 아직 못하는 핵심 비트를 설계하고, 커리큘럼의 중요 포인트를 주입하는 것
- 에이전트가 할 수 있는 일은 곧 인간보다 더 잘할 수 있으므로, 시간을 어디에 쓸지 전략적 선택이 필요

▲

jokerized 1달전 [-]

농담이 진짜 큰 허들임. 유머감각 있는 ai 만들면 그게 혁신. 지금 농담해보라고 하면 진짜 핵노잼인걸 보면 알수있음

답변달기

Andrej Karpathy가 말하는 코드 에이전트, AutoResearch, 그리고 AI의 루피(Loopy) 시대 [유튜브]

코드 에이전트 시대의 도래와 작업 방식의 전환

병렬 에이전트 운영과 숙련도의 중요성

OpenClaw와 에이전트 성격의 중요성

집요정 Dobby: 홈 오토메이션 사례

앱의 종말과 에이전트 우선 세계

AutoResearch: 연구자를 루프에서 제거

프로그램 MD의 메타 최적화

AI 모델의 들쭉날쭉한(jagged) 지능

지능의 종분화(speciation) 필요성

오픈 소스와 Frontier Labs의 균형

오픈 소스 연구 협업: AutoResearch의 분산 확장

취업 시장과 AI의 영향

디지털-물리적 인터페이스와 미래 기회

로보틱스에 대한 견해

Frontier Labs 내부 vs 외부: 독립 연구자의 딜레마

microGPT와 교육의 미래

함께 보면 좋은 글 β