게임을 넘어 현실까지 배우는 AI: 존 카맥의 현실 기반 강화학습 도전

(twitter.com/ID_AA_Carmack)

17P by GN⁺ 2달전 | ★ favorite | 댓글 1개

John Carmack의 "Upper Bound 2025 발표"의 준비노트 요약 및 슬라이드
존 카맥은 Id Software, Oculus, Keen Technologies 등을 거친 후 현재는 강화학습 기반 AGI 연구에 집중하고 있음
LLM을 지양하고, 동물처럼 환경과 상호작용하며 배우는 지속적·효율적 학습에 관심을 둠
고전 게임 Atari를 기반으로 실시간 카메라·조이스틱 입력으로 학습하는 물리적 RL 시스템을 구축함
속도·지연·연속학습·망각 방지 등 RL 시스템이 현실과 유사해지기 위해 해결해야 할 기술적 과제를 폭넓게 제시함
CNN 구조, 보상 표현, 탐험 전략 등에 대해 경험 기반의 날카로운 통찰을 공유하며, 기존 관행에 의문을 제기함

슬라이드: https://docs.google.com/presentation/d/…
준비 노트: https://docs.google.com/document/d/…

Quick Background

Id Software 창업자로서 Quake는 GPU 발전을 이끌며 AI 분야에 간접적 영향을 줌
Armadillo Aerospace에서 수직이착륙 로켓 연구를 10년간 수행
Oculus에서 현대 VR 기술의 토대 구축
Keen Technologies 설립, 강화학습에 집중하며 AI 연구에 전념 중
리처드 서튼과 함께 연구 중으로, 강화학습에 대한 철학을 공유함

Where I thought I was going

Not LLMs

LLM은 “학습 없는 지식” 으로, 본인이 지향하는 상호작용 기반 학습과는 철학이 다름
LLM이 RL을 대체할 가능성은 열려 있으나, 동물처럼 환경에서 배우는 방식에 더 매력을 느낌

Games

오랜 게임 개발 경력 덕분에 게임을 실험 환경으로 활용
DeepMind의 Atari 연구처럼 픽셀 기반 입력만으로 학습 가능성을 타진
그러나 막대한 학습 프레임 수와 효율성 문제는 여전히 과제
다중 과제, 온라인, 효율적 학습은 미해결 상태

Video

원래는 TV 같은 수동적 영상 학습을 고려, 그러나 게임 학습 자체에 집중하기로 함

Missteps

너무 로우레벨(C++ CUDA)에서 시작, PyTorch로 전환하며 실험 속도 향상
Atari 대신 Sega Master System으로 시작했으나 비교 자료 부족으로 전환
비디오 기반 학습은 보류, 게임 내 학습만으로도 충분한 과제가 있음

Settling in with Atari

상업용 게임의 다양성은 연구 편향을 줄여주는 장점
ALE 직접 사용 권장 (Gym 등 래퍼는 문제 발생 가능성 있음)
최신 모델이 대부분의 게임을 고득점으로 해결했지만, “Atari 100k”처럼 데이터 효율성 있는 학습이 더 중요
환경의 결정론적 행동은 Sticky action 도입 등으로 극복 필요

Reality is not a turn based game

현실은 에이전트를 기다려주지 않음 → 비동기 처리와 지연 고려 필요
단일 환경에서의 학습 실패는 알고리즘 자체 문제를 시사
속도: 고속으로 평가 가능한 정책이 필요 (CUDA graph 활용 등)
지연: RL 알고리즘 대부분은 지연에 취약함 → 정책 적용 지연을 반영하는 구조가 필요

Physical Atari

물리 환경에서의 Atari 학습 시스템 구축
실제 조이스틱 조작, 화면을 보는 카메라, RL 에이전트가 실시간으로 작동
여러 게임을 테스트하며 점수 인식·행동 지연·조작 오류 등 현실 문제 고려
조이스틱 동작은 불안정, 점수 인식이 가장 까다로움
일부 게임은 점수가 잘 보이지 않아 제외함

Sparse rewards / Curiosity

RL은 보상이 희소한 환경에 약함 → 내재적 보상, 인공지능적 호기심 활용
게임 점수 자체를 보상 대신 사용할 수 있는가에 대한 탐색도 병행
게임 간 전환, 새로운 게임에 대한 흥미 유지 같은 인간 행동 패턴 재현 시도

Sequential multi-task learning

연속 학습 환경에서의 망각 문제 (catastrophic forgetting)은 여전히 심각
사람은 오래된 기술을 기억하는데, 현재의 모델은 과거 게임 재방문 시 성능 급락
기억 보존, 학습률 조정, 가중치 sparsity 등으로 개선 시도
Task ID 사용은 부정행위로 간주, implicit하게 전환 필요

Transfer Learning

학습이 많은 게임을 통해 더 빠르게 새 게임을 배워야 함
OpenAI의 Sonic 챌린지는 결국 다시 from scratch 학습
GATO 등은 부정적 전이(negative transfer) 발생
“천천히 배워야 빨리 배운다”는 전략이 필요할 수 있음
새로운 벤치마크 제안: 여러 게임을 순차적으로 반복하면서 점수 평가

Plasticity vs generalization

일반화는 무시하는 것이고, 가소성은 새 패턴 인식 → 서로 충돌할 수 있음
일반화는 약한 이론 기반, CNN의 inductive bias 정도
강화학습의 값 함수는 일반화의 산물이며, 매우 민감

Exploration

랜덤 액션 선택의 한계 → 실수 하나로 생존 좌우됨
액션 공간 구조화, confidence 기반 정책 등 시도
시간 단위 액션 역시 고민 필요 → 60fps 학습은 어려움이 큼

Recurrence vs frame stacks

Atari에서는 frame stack이 효과적이지만, recurrent 구조는 뇌와 더 유사
Transformer는 batch 학습에는 강하지만 일반 recurrent online 학습은 미완

Function approximation 중심의 학습

NN은 값 추정, 일반화, 확률 평균, 정책 개선을 동시에 수행
모든 가중치 업데이트는 모든 출력값에 영향
초기화·활성함수·옵티마이저 조합이 성능에 중대한 영향

Value representation

클래식 DQN reward clamping은 학습 안정화에 유효
Categorical 표현, MSE 활용, MuZero의 value 압축 등 다양한 접근 존재
게임마다 점수 범위가 달라 multi-task 학습에서 문제

Conv Nets

CNN은 여전히 RL의 기본 구조
대형 이미지 네트워크는 RL에서 성능 하락 (예: ConvNeXT)
커널 구조 변경, 파라미터 공유, Isotropic CNN 등 실험
DenseNet, Dilated CNN 등 효율적인 정보 흐름 추구
생물학적 구조와 유사한 CNN 개선 시도

▲

GN⁺ 2달전 [-]

Hacker News 의견

Carmack의 강연이나 글을 볼 때마다 항상 흥미로운 경험임을 강조하고 싶음. 이번 노트에서도 엔지니어로서 사고 과정을 꼼꼼하게 기록하는 방식이 인상적임. 연구 방향으로 실시간 학습에 집중하는 부분에 대해 궁금증이 있었음. 카르막이 온라인 러닝을 실시간으로 진행하는 것으로 이해함. 멋진 데모와 최적화 경험을 살릴 수 있는 재미있는 도전이지만, 최근의 교훈과 연구 흐름을 보면 실시간 추론 및 학습이 가능한 컴퓨팅 자원이 갖춰지지 않은 상황에서는 결과가 한계에 부딪힐 수 있다고 생각함. 뇌가 아타리 게임을 해결하는 유일한 예시이며, 인간 뇌의 컴퓨팅 능력조차 명확히 계산된 적 없음. 이러한 맥락에서 굳이 실시간 제약을 두기보다 학습 효율에 집중하는 접근이 좋지 않을까 하는 genuine한 질문임. 물론 제약 내에서 작업할 때 얻는 가치가 많겠지만, 점프하는 거미도 10만 뉴런으로 복잡한 문제를 해결하는 예시도 있으니, 예측하기 어려움
- 90년대 초 카르막이 했던 초기 3D 그래픽스와 실시간 렌더링 연구 당시, 워크스테이션 기반의 오프라인 전문가들도 비슷한 생각을 했을 것임. 카르막의 가장 큰 강점은 항상 한정된 자원 내에서 극한 성과를 내는 능력임(id Software, Oculus, Armadillo Aerospace 등). 대형 조직이나 기존 기술에 얽매이면 오히려 성과가 줄어든다는 인상임(Bethesda-id, Meta에서 퇴사한 것도 그런 이유라 생각). 실시간에 집중하는 카르막의 스타일을 이해하고, 현재 AI 붐에서 단순히 컴퓨팅 파워로 밀어붙이는 접근을 그렇게 좋아하지 않을 것 같음. 투자자 돈으로 LLM 학습 같은 일에 몰두하지 않는 점이 다행임. 이상적이라면 예전처럼 훌륭한 동료들과 더불어 첨단 기술을 대중화하는 방식(예: 3D 그래픽스 보급)으로 혁신을 만들길 바람
- 발표 노트의 한 문장을 인용하면 "AI가 곧 육체를 가진 AGI가 올 거라 생각한다면, 네 댄싱 휴머노이드 로봇에게 조이스틱을 집어들고 생판 처음 보는 비디오 게임을 학습하게 시켜보라"는 사실 체크가 필요하단 제안임
- 인간이나 동물은 엄청난 타고난 능력과 사전 지식을 갖고 있어서 새로운 것 학습이 훨씬 쉬운 구조임을 강조하고 싶음. 이게 계산 능력의 차이라기보다는 학습의 출발점 자체가 다름
- 인간 뇌의 컴퓨팅 용량에 대해 명확치 않다는 의견에 대해, 실제로 뉴런의 신호 전송 속도를 측정하면 연속적으로 연결된 뉴런 수에 상한선이 있고(약 100단계), 이로 짐작할 때 인간의 인지 처리는 생각보다 복잡하지 않음. 물론 병렬성과 피드백 루프가 많겠지만, 결국 AGI 알고리즘이 발견된다면 2025년의 평범한 하드웨어에서 리얼타임으로 돌릴 수 있을 만한 ‘미니’ 버전이 나올 수 있을 거라 생각함
관련 직접 링크 모음:
- 프레젠테이션 슬라이드
- 텍스트 문서
OpenAI 내부자의 흥미로운 답글이 있어서 공유하고 싶음: X 링크
- 사실 별 흥미 없는 반응임. 외부자 의견 무시하는 모호한 태도는 학문적 불안에서 기인한 전형적인 모습임. 구체적 설명이나 근거가 없어서 논의에 도움이 안 됨. ‘OpenAI 내부자’ 대 ‘John Carmack와 Richard Sutton’이라면 누구 편을 드는지는 분명함
- Carmack이 해당 글에 직접 답변함: Carmack 답글
- 일부 사람들은 트위터 전체 스레드를 보고 평가를 내리고 있고, 로그인 안 한 사람들은 첫 트윗만 보기 때문에 단순한 무시로 느껴짐
- “어떤 교훈을 배웠다”면서 정작 그 교훈이 뭔지는 알려주지 않는 점이 재미있음
- "they will learn the same lesson I did"라는 트윗을 보고 ‘Altman을 믿지 말라는 뜻인가?’라는 농담을 덧붙이고 싶음
Carmack이 AI에 집중하기로 했다는 소식을 듣고 정말 기대했음. 영상이 올라오길 기다리고 있는데, 슬라이드를 보면 아타리 게임을 플레이할 수 있는 시스템을 만든 듯함. 재미있는 프로젝트라고 생각하지만, 다른 논문이나 결과물이 나올지 궁금함
- 아타리 게임은 RL(강화학습) 연구에서 표준 벤치마크로 널리 쓰이고 있음. 참고 자료: Arcade Learning Environment. 목표는 다양한 과제로 일반화 가능한 알고리즘 개발임
- 아타리 게임을 깨거나 고득점 올리는 에이전트는 이미 많지만, 아직 갈 길이 먼 분야임. 석사 논문에서 적은 상호작용만으로 학습하는 방법을 연구했으며, 이를 실제 로봇에 적용하면 로봇이 수백 년을 걷고 넘어져야 행동을 배우는 걸 방지할 수 있음. 더 높은 수준의 일반화, 즉 여러 비디오 게임을 배우고 새로운 게임도 직관적으로 배울 수 있는 원리를 연구한 사례가 부족함
- 이번 프로젝트의 목표는 단순히 아타리 게임을 ‘깨는 것’이 아니라, 더 복잡한 게임이나 물리적 세계에 적용할 수 있는 범용적 방법론임. 하지만 연구 인사이트상, 아직 단계에서 복잡한 게임을 도입하는 것보다는 아타리 환경을 실시간 등 방식으로 수정해서 테스트하는 게 더 효율적이라고 봄
- 오픈소스로 공개할 예정이라는 점이 멋짐. 물리적 컨트롤러와 카메라로 랩탑 GPU에서 실시간으로 플레이하는 게 신선하지만, 이 자체로 혁신적일지는 의문임. 만약 샘플 효율이나 일반화 측면에서 기존 연구 대비 뛰어나다면 정말 놀라울 것임
- 내 소망은 게임 속 NPC가 더 똑똑해졌으면 한다는 점임
슬라이드 서두에 나오는 것처럼 VR 환경에서 이런 연구를 했으면 어땠을까 하는 아쉬움이 있음. JPEG 카메라 필터, 물리 시뮬, 노이즈, 로봇 시뮬 환경까지 VR로 잘 구현할 수 있는 실력이 있다면 카르막이 그 적임자임. 실제 로봇을 쓰는 건 학습 시간 측면에서 엄청난 병목임
AGI가 굳이 물리적 몸을 가질 이유가 무엇인지 왜 우리는 뛰어난 지능을 창조하면 우리 차를 몰고, 집을 청소해주길 바라는지 생각하게 됨. 오히려 Dan Simmons ‘Hyperion’ 소설처럼 AGI가 클라우드로 사라져 인간을 대체로 무시하는 시나리오가 현실적임
- 반드시 영원할 필요는 없고, 인간 역시 몸을 벗어날 수 있다면 언제든지 그렇게 하고 싶을 것임. 영구적으로 물리적 인터페이스에 갇히는 건 불리한 측면임
- SF에서 자주 언급되는 이유는 ‘AGI가 내 몸의 전원 버튼을 누르지 못하게’ 하려는 목적도 있다고 생각함
AGI에 대해 논의하려면 ‘개념’이 무엇인지조차 명확하지 않다고 느끼고 있음. 한 분야의 개념을 다른 분야에서 써먹는 사고 과정, 뇌가 아이디어를 조합하고 추상화하는 과정이 무엇인지 아직 우리는 모름
- 사물이 반복적으로 나타나면 이름을 붙이고, 개념은 반복되는 사고 패턴임. 추상, 관계, 은유 모두 도메인 간 패턴 이동을 위한 도구임
하나의 실험 예시로, 만약 OpenAI AGI가 정말 임박했다면 왜 Ive가 운영하는 하드웨어 스타트업을 인수하는 데 시간/비용을 허비하는지 물으면 좋겠음. 로보틱스에 도전하거나, 정말 최고의 AGI라면 수많은 기업이 하드웨어/소프트웨어에 라이선스 요청하러 몰려올 터이니 그 자체로 무한 수익을 창출할 수 있음
- AGI만으론 부족함. ChatGPT 인터페이스에 AGI를 넣어도 진짜 세계에 영향을 주려면 AGI가 ‘어디에나’ 존재해야 함
- AGI 개발에 접근 중인 회사라면 정부나 군대의 규제에서 숨기기 위해 일부러 정보를 노출하지 않을 가능성도 큼. AGI 선점은 리스크가 큼
- AGI가 제품 설계까지도 가능하다는 방향성을 제시하고 싶음
카르막이 택한 연구가 옳다고 봄. 지금처럼 언어로만 학습시키는 걸 넘어서야 한다고 생각함. AI는 물리성이 필요함
- AI를 본격적으로 언어 외의 다양한 데이터로 학습시키는 건 이미 수년 전부터 진행 중임. 최신 프론티어 모델들은 텍스트, 오디오, 영상, 이미지 등을 한 모델 안에서 멀티모달로 훈련하고 있음(Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 등). 모든 입력이 토큰화되어 공유 임베딩 공간에서 처리됨
- AI에 물리성이 필요하다는 관점에서, 실제로 카르막도 예전에는 시뮬레이션 환경이 AI 개발에 더 적합하고 물리 환경은 현실적으로 비효율적이라 강조했던 점이 흥미로움
- Nvidia 역시 같은 의견을 갖고 있음. Jim Fan이 “물리적 튜링 테스트”와 embodied AI의 미래에 대해 언급함. Jim Fan 강연 영상. 이 안에서도, 탄탄한 시뮬레이션 환경을 돌리기 위한 막대한 컴퓨팅 리소스가 필요하다는 점을 강조함
"나는 연구 커뮤니티에 신참이라 신경을 썼다"는 표현에서 논문 제출 가능성을 암시하는 것 같음
- 이번 프로젝트가 제품 회사가 아니라 연구를 위한 시도임을 밝히고 있음

답변달기