전 OpenAI·Tesla AI 디렉터 Andrej Karpathy가 최근 Dwarkesh Patel의 팟캐스트에서 AI 에이전트의 미래와 AGI 타임라인에 대해 냉철한 현실 진단을 내놓았습니다. 업계가 “에이전트의 해”를 외치는 동안, 그는 왜 이것이 “에이전트의 10년”이 되어야 하는지, 그리고 현재 강화학습의 근본적 문제가 무엇인지 솔직하게 털어놨습니다.

핵심 포인트:

  • “supervision을 빨대로 빨아들인다”: 강화학습의 치명적 약점 – 수백 번의 시도 끝에 단 하나의 정답 신호로 전체 과정을 평가하는 현재 RL 방식은 근본적으로 비효율적이고 노이즈가 심함
  • 코딩 AI의 실제 능력: nanochat 프로젝트가 보여준 것 – 8천 줄의 ChatGPT 클론 구축 과정에서 AI 에이전트는 독창적 코드 작성에 치명적으로 약했고, 자동완성 정도가 최선이었음
  • 모델 붕괴의 딜레마: 합성 데이터의 숨겨진 함정 – LLM이 생성하는 모든 샘플은 “조용히 붕괴된” 분포를 가지며, ChatGPT에게 농담을 요청하면 3개 정도만 반복하는 이유가 여기 있음