Carmack의 강연이나 글을 볼 때마다 항상 흥미로운 경험임을 강조하고 싶음. 이번 노트에서도 엔지니어로서 사고 과정을 꼼꼼하게 기록하는 방식이 인상적임. 연구 방향으로 실시간 학습에 집중하는 부분에 대해 궁금증이 있었음. 카르막이 온라인 러닝을 실시간으로 진행하는 것으로 이해함. 멋진 데모와 최적화 경험을 살릴 수 있는 재미있는 도전이지만, 최근의 교훈과 연구 흐름을 보면 실시간 추론 및 학습이 가능한 컴퓨팅 자원이 갖춰지지 않은 상황에서는 결과가 한계에 부딪힐 수 있다고 생각함. 뇌가 아타리 게임을 해결하는 유일한 예시이며, 인간 뇌의 컴퓨팅 능력조차 명확히 계산된 적 없음. 이러한 맥락에서 굳이 실시간 제약을 두기보다 학습 효율에 집중하는 접근이 좋지 않을까 하는 genuine한 질문임. 물론 제약 내에서 작업할 때 얻는 가치가 많겠지만, 점프하는 거미도 10만 뉴런으로 복잡한 문제를 해결하는 예시도 있으니, 예측하기 어려움
90년대 초 카르막이 했던 초기 3D 그래픽스와 실시간 렌더링 연구 당시, 워크스테이션 기반의 오프라인 전문가들도 비슷한 생각을 했을 것임. 카르막의 가장 큰 강점은 항상 한정된 자원 내에서 극한 성과를 내는 능력임(id Software, Oculus, Armadillo Aerospace 등). 대형 조직이나 기존 기술에 얽매이면 오히려 성과가 줄어든다는 인상임(Bethesda-id, Meta에서 퇴사한 것도 그런 이유라 생각). 실시간에 집중하는 카르막의 스타일을 이해하고, 현재 AI 붐에서 단순히 컴퓨팅 파워로 밀어붙이는 접근을 그렇게 좋아하지 않을 것 같음. 투자자 돈으로 LLM 학습 같은 일에 몰두하지 않는 점이 다행임. 이상적이라면 예전처럼 훌륭한 동료들과 더불어 첨단 기술을 대중화하는 방식(예: 3D 그래픽스 보급)으로 혁신을 만들길 바람
발표 노트의 한 문장을 인용하면 "AI가 곧 육체를 가진 AGI가 올 거라 생각한다면, 네 댄싱 휴머노이드 로봇에게 조이스틱을 집어들고 생판 처음 보는 비디오 게임을 학습하게 시켜보라"는 사실 체크가 필요하단 제안임
인간이나 동물은 엄청난 타고난 능력과 사전 지식을 갖고 있어서 새로운 것 학습이 훨씬 쉬운 구조임을 강조하고 싶음. 이게 계산 능력의 차이라기보다는 학습의 출발점 자체가 다름
인간 뇌의 컴퓨팅 용량에 대해 명확치 않다는 의견에 대해, 실제로 뉴런의 신호 전송 속도를 측정하면 연속적으로 연결된 뉴런 수에 상한선이 있고(약 100단계), 이로 짐작할 때 인간의 인지 처리는 생각보다 복잡하지 않음. 물론 병렬성과 피드백 루프가 많겠지만, 결국 AGI 알고리즘이 발견된다면 2025년의 평범한 하드웨어에서 리얼타임으로 돌릴 수 있을 만한 ‘미니’ 버전이 나올 수 있을 거라 생각함
사실 별 흥미 없는 반응임. 외부자 의견 무시하는 모호한 태도는 학문적 불안에서 기인한 전형적인 모습임. 구체적 설명이나 근거가 없어서 논의에 도움이 안 됨. ‘OpenAI 내부자’ 대 ‘John Carmack와 Richard Sutton’이라면 누구 편을 드는지는 분명함
아타리 게임을 깨거나 고득점 올리는 에이전트는 이미 많지만, 아직 갈 길이 먼 분야임. 석사 논문에서 적은 상호작용만으로 학습하는 방법을 연구했으며, 이를 실제 로봇에 적용하면 로봇이 수백 년을 걷고 넘어져야 행동을 배우는 걸 방지할 수 있음. 더 높은 수준의 일반화, 즉 여러 비디오 게임을 배우고 새로운 게임도 직관적으로 배울 수 있는 원리를 연구한 사례가 부족함
이번 프로젝트의 목표는 단순히 아타리 게임을 ‘깨는 것’이 아니라, 더 복잡한 게임이나 물리적 세계에 적용할 수 있는 범용적 방법론임. 하지만 연구 인사이트상, 아직 단계에서 복잡한 게임을 도입하는 것보다는 아타리 환경을 실시간 등 방식으로 수정해서 테스트하는 게 더 효율적이라고 봄
오픈소스로 공개할 예정이라는 점이 멋짐. 물리적 컨트롤러와 카메라로 랩탑 GPU에서 실시간으로 플레이하는 게 신선하지만, 이 자체로 혁신적일지는 의문임. 만약 샘플 효율이나 일반화 측면에서 기존 연구 대비 뛰어나다면 정말 놀라울 것임
내 소망은 게임 속 NPC가 더 똑똑해졌으면 한다는 점임
슬라이드 서두에 나오는 것처럼 VR 환경에서 이런 연구를 했으면 어땠을까 하는 아쉬움이 있음. JPEG 카메라 필터, 물리 시뮬, 노이즈, 로봇 시뮬 환경까지 VR로 잘 구현할 수 있는 실력이 있다면 카르막이 그 적임자임. 실제 로봇을 쓰는 건 학습 시간 측면에서 엄청난 병목임
AGI가 굳이 물리적 몸을 가질 이유가 무엇인지 왜 우리는 뛰어난 지능을 창조하면 우리 차를 몰고, 집을 청소해주길 바라는지 생각하게 됨. 오히려 Dan Simmons ‘Hyperion’ 소설처럼 AGI가 클라우드로 사라져 인간을 대체로 무시하는 시나리오가 현실적임
반드시 영원할 필요는 없고, 인간 역시 몸을 벗어날 수 있다면 언제든지 그렇게 하고 싶을 것임. 영구적으로 물리적 인터페이스에 갇히는 건 불리한 측면임
SF에서 자주 언급되는 이유는 ‘AGI가 내 몸의 전원 버튼을 누르지 못하게’ 하려는 목적도 있다고 생각함
AGI에 대해 논의하려면 ‘개념’이 무엇인지조차 명확하지 않다고 느끼고 있음. 한 분야의 개념을 다른 분야에서 써먹는 사고 과정, 뇌가 아이디어를 조합하고 추상화하는 과정이 무엇인지 아직 우리는 모름
사물이 반복적으로 나타나면 이름을 붙이고, 개념은 반복되는 사고 패턴임. 추상, 관계, 은유 모두 도메인 간 패턴 이동을 위한 도구임
하나의 실험 예시로, 만약 OpenAI AGI가 정말 임박했다면 왜 Ive가 운영하는 하드웨어 스타트업을 인수하는 데 시간/비용을 허비하는지 물으면 좋겠음. 로보틱스에 도전하거나, 정말 최고의 AGI라면 수많은 기업이 하드웨어/소프트웨어에 라이선스 요청하러 몰려올 터이니 그 자체로 무한 수익을 창출할 수 있음
AGI만으론 부족함. ChatGPT 인터페이스에 AGI를 넣어도 진짜 세계에 영향을 주려면 AGI가 ‘어디에나’ 존재해야 함
AGI 개발에 접근 중인 회사라면 정부나 군대의 규제에서 숨기기 위해 일부러 정보를 노출하지 않을 가능성도 큼. AGI 선점은 리스크가 큼
AGI가 제품 설계까지도 가능하다는 방향성을 제시하고 싶음
카르막이 택한 연구가 옳다고 봄. 지금처럼 언어로만 학습시키는 걸 넘어서야 한다고 생각함. AI는 물리성이 필요함
AI를 본격적으로 언어 외의 다양한 데이터로 학습시키는 건 이미 수년 전부터 진행 중임. 최신 프론티어 모델들은 텍스트, 오디오, 영상, 이미지 등을 한 모델 안에서 멀티모달로 훈련하고 있음(Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 등). 모든 입력이 토큰화되어 공유 임베딩 공간에서 처리됨
AI에 물리성이 필요하다는 관점에서, 실제로 카르막도 예전에는 시뮬레이션 환경이 AI 개발에 더 적합하고 물리 환경은 현실적으로 비효율적이라 강조했던 점이 흥미로움
Nvidia 역시 같은 의견을 갖고 있음. Jim Fan이 “물리적 튜링 테스트”와 embodied AI의 미래에 대해 언급함. Jim Fan 강연 영상. 이 안에서도, 탄탄한 시뮬레이션 환경을 돌리기 위한 막대한 컴퓨팅 리소스가 필요하다는 점을 강조함
"나는 연구 커뮤니티에 신참이라 신경을 썼다"는 표현에서 논문 제출 가능성을 암시하는 것 같음
Hacker News 의견
Carmack의 강연이나 글을 볼 때마다 항상 흥미로운 경험임을 강조하고 싶음. 이번 노트에서도 엔지니어로서 사고 과정을 꼼꼼하게 기록하는 방식이 인상적임. 연구 방향으로 실시간 학습에 집중하는 부분에 대해 궁금증이 있었음. 카르막이 온라인 러닝을 실시간으로 진행하는 것으로 이해함. 멋진 데모와 최적화 경험을 살릴 수 있는 재미있는 도전이지만, 최근의 교훈과 연구 흐름을 보면 실시간 추론 및 학습이 가능한 컴퓨팅 자원이 갖춰지지 않은 상황에서는 결과가 한계에 부딪힐 수 있다고 생각함. 뇌가 아타리 게임을 해결하는 유일한 예시이며, 인간 뇌의 컴퓨팅 능력조차 명확히 계산된 적 없음. 이러한 맥락에서 굳이 실시간 제약을 두기보다 학습 효율에 집중하는 접근이 좋지 않을까 하는 genuine한 질문임. 물론 제약 내에서 작업할 때 얻는 가치가 많겠지만, 점프하는 거미도 10만 뉴런으로 복잡한 문제를 해결하는 예시도 있으니, 예측하기 어려움
90년대 초 카르막이 했던 초기 3D 그래픽스와 실시간 렌더링 연구 당시, 워크스테이션 기반의 오프라인 전문가들도 비슷한 생각을 했을 것임. 카르막의 가장 큰 강점은 항상 한정된 자원 내에서 극한 성과를 내는 능력임(id Software, Oculus, Armadillo Aerospace 등). 대형 조직이나 기존 기술에 얽매이면 오히려 성과가 줄어든다는 인상임(Bethesda-id, Meta에서 퇴사한 것도 그런 이유라 생각). 실시간에 집중하는 카르막의 스타일을 이해하고, 현재 AI 붐에서 단순히 컴퓨팅 파워로 밀어붙이는 접근을 그렇게 좋아하지 않을 것 같음. 투자자 돈으로 LLM 학습 같은 일에 몰두하지 않는 점이 다행임. 이상적이라면 예전처럼 훌륭한 동료들과 더불어 첨단 기술을 대중화하는 방식(예: 3D 그래픽스 보급)으로 혁신을 만들길 바람
발표 노트의 한 문장을 인용하면 "AI가 곧 육체를 가진 AGI가 올 거라 생각한다면, 네 댄싱 휴머노이드 로봇에게 조이스틱을 집어들고 생판 처음 보는 비디오 게임을 학습하게 시켜보라"는 사실 체크가 필요하단 제안임
인간이나 동물은 엄청난 타고난 능력과 사전 지식을 갖고 있어서 새로운 것 학습이 훨씬 쉬운 구조임을 강조하고 싶음. 이게 계산 능력의 차이라기보다는 학습의 출발점 자체가 다름
인간 뇌의 컴퓨팅 용량에 대해 명확치 않다는 의견에 대해, 실제로 뉴런의 신호 전송 속도를 측정하면 연속적으로 연결된 뉴런 수에 상한선이 있고(약 100단계), 이로 짐작할 때 인간의 인지 처리는 생각보다 복잡하지 않음. 물론 병렬성과 피드백 루프가 많겠지만, 결국 AGI 알고리즘이 발견된다면 2025년의 평범한 하드웨어에서 리얼타임으로 돌릴 수 있을 만한 ‘미니’ 버전이 나올 수 있을 거라 생각함
관련 직접 링크 모음:
OpenAI 내부자의 흥미로운 답글이 있어서 공유하고 싶음: X 링크
사실 별 흥미 없는 반응임. 외부자 의견 무시하는 모호한 태도는 학문적 불안에서 기인한 전형적인 모습임. 구체적 설명이나 근거가 없어서 논의에 도움이 안 됨. ‘OpenAI 내부자’ 대 ‘John Carmack와 Richard Sutton’이라면 누구 편을 드는지는 분명함
Carmack이 해당 글에 직접 답변함: Carmack 답글
일부 사람들은 트위터 전체 스레드를 보고 평가를 내리고 있고, 로그인 안 한 사람들은 첫 트윗만 보기 때문에 단순한 무시로 느껴짐
“어떤 교훈을 배웠다”면서 정작 그 교훈이 뭔지는 알려주지 않는 점이 재미있음
"they will learn the same lesson I did"라는 트윗을 보고 ‘Altman을 믿지 말라는 뜻인가?’라는 농담을 덧붙이고 싶음
Carmack이 AI에 집중하기로 했다는 소식을 듣고 정말 기대했음. 영상이 올라오길 기다리고 있는데, 슬라이드를 보면 아타리 게임을 플레이할 수 있는 시스템을 만든 듯함. 재미있는 프로젝트라고 생각하지만, 다른 논문이나 결과물이 나올지 궁금함
아타리 게임은 RL(강화학습) 연구에서 표준 벤치마크로 널리 쓰이고 있음. 참고 자료: Arcade Learning Environment. 목표는 다양한 과제로 일반화 가능한 알고리즘 개발임
아타리 게임을 깨거나 고득점 올리는 에이전트는 이미 많지만, 아직 갈 길이 먼 분야임. 석사 논문에서 적은 상호작용만으로 학습하는 방법을 연구했으며, 이를 실제 로봇에 적용하면 로봇이 수백 년을 걷고 넘어져야 행동을 배우는 걸 방지할 수 있음. 더 높은 수준의 일반화, 즉 여러 비디오 게임을 배우고 새로운 게임도 직관적으로 배울 수 있는 원리를 연구한 사례가 부족함
이번 프로젝트의 목표는 단순히 아타리 게임을 ‘깨는 것’이 아니라, 더 복잡한 게임이나 물리적 세계에 적용할 수 있는 범용적 방법론임. 하지만 연구 인사이트상, 아직 단계에서 복잡한 게임을 도입하는 것보다는 아타리 환경을 실시간 등 방식으로 수정해서 테스트하는 게 더 효율적이라고 봄
오픈소스로 공개할 예정이라는 점이 멋짐. 물리적 컨트롤러와 카메라로 랩탑 GPU에서 실시간으로 플레이하는 게 신선하지만, 이 자체로 혁신적일지는 의문임. 만약 샘플 효율이나 일반화 측면에서 기존 연구 대비 뛰어나다면 정말 놀라울 것임
내 소망은 게임 속 NPC가 더 똑똑해졌으면 한다는 점임
슬라이드 서두에 나오는 것처럼 VR 환경에서 이런 연구를 했으면 어땠을까 하는 아쉬움이 있음. JPEG 카메라 필터, 물리 시뮬, 노이즈, 로봇 시뮬 환경까지 VR로 잘 구현할 수 있는 실력이 있다면 카르막이 그 적임자임. 실제 로봇을 쓰는 건 학습 시간 측면에서 엄청난 병목임
AGI가 굳이 물리적 몸을 가질 이유가 무엇인지 왜 우리는 뛰어난 지능을 창조하면 우리 차를 몰고, 집을 청소해주길 바라는지 생각하게 됨. 오히려 Dan Simmons ‘Hyperion’ 소설처럼 AGI가 클라우드로 사라져 인간을 대체로 무시하는 시나리오가 현실적임
반드시 영원할 필요는 없고, 인간 역시 몸을 벗어날 수 있다면 언제든지 그렇게 하고 싶을 것임. 영구적으로 물리적 인터페이스에 갇히는 건 불리한 측면임
SF에서 자주 언급되는 이유는 ‘AGI가 내 몸의 전원 버튼을 누르지 못하게’ 하려는 목적도 있다고 생각함
AGI에 대해 논의하려면 ‘개념’이 무엇인지조차 명확하지 않다고 느끼고 있음. 한 분야의 개념을 다른 분야에서 써먹는 사고 과정, 뇌가 아이디어를 조합하고 추상화하는 과정이 무엇인지 아직 우리는 모름
하나의 실험 예시로, 만약 OpenAI AGI가 정말 임박했다면 왜 Ive가 운영하는 하드웨어 스타트업을 인수하는 데 시간/비용을 허비하는지 물으면 좋겠음. 로보틱스에 도전하거나, 정말 최고의 AGI라면 수많은 기업이 하드웨어/소프트웨어에 라이선스 요청하러 몰려올 터이니 그 자체로 무한 수익을 창출할 수 있음
AGI만으론 부족함. ChatGPT 인터페이스에 AGI를 넣어도 진짜 세계에 영향을 주려면 AGI가 ‘어디에나’ 존재해야 함
AGI 개발에 접근 중인 회사라면 정부나 군대의 규제에서 숨기기 위해 일부러 정보를 노출하지 않을 가능성도 큼. AGI 선점은 리스크가 큼
AGI가 제품 설계까지도 가능하다는 방향성을 제시하고 싶음
카르막이 택한 연구가 옳다고 봄. 지금처럼 언어로만 학습시키는 걸 넘어서야 한다고 생각함. AI는 물리성이 필요함
AI를 본격적으로 언어 외의 다양한 데이터로 학습시키는 건 이미 수년 전부터 진행 중임. 최신 프론티어 모델들은 텍스트, 오디오, 영상, 이미지 등을 한 모델 안에서 멀티모달로 훈련하고 있음(Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 등). 모든 입력이 토큰화되어 공유 임베딩 공간에서 처리됨
AI에 물리성이 필요하다는 관점에서, 실제로 카르막도 예전에는 시뮬레이션 환경이 AI 개발에 더 적합하고 물리 환경은 현실적으로 비효율적이라 강조했던 점이 흥미로움
Nvidia 역시 같은 의견을 갖고 있음. Jim Fan이 “물리적 튜링 테스트”와 embodied AI의 미래에 대해 언급함. Jim Fan 강연 영상. 이 안에서도, 탄탄한 시뮬레이션 환경을 돌리기 위한 막대한 컴퓨팅 리소스가 필요하다는 점을 강조함
"나는 연구 커뮤니티에 신참이라 신경을 썼다"는 표현에서 논문 제출 가능성을 암시하는 것 같음