지속적인 사고 기계

(pub.sakana.ai)

2P by GN⁺ 6달전 | ★ favorite | 댓글 1개

연구진은 뇌의 신경 세포가 계산에 있어 타이밍과 동기화를 활용함이 현대 AI에서 간과된 핵심임을 지적함
Continuous Thought Machine(CTM) 구조를 도입하여 동물 뇌의 시간 기반 신경 다이나믹스를 실제 모델에 접목함
CTM은 비동기적 내부 사고 차원, 개별 뉴런 단위 모델, 그리고 뉴런 간 동기화 표현을 활용해 정보 처리함
다양한 실험에서 적응적 계산력, 신경 동기화 기반 기억력, 강한 일반화 능력을 확인함
CTM 구조의 해석 용이성, 생물학적 개연성, 다양한 작업 적합성을 실증함

tl;dr

뇌의 뉴런이 계산에 사용하는 타이밍과 동기화 특성이 생물 지능의 유연성과 적응력의 핵심임
현대 AI는 효율성과 단순함을 위해 이러한 시간 기반 특성을 버리고 있음
연구팀은 뉴런의 타이밍이 중요한 생물학적 개연성과 현대 AI의 효율적인 구현 사이의 간극을 좁히는 방안을 찾았음
이 결과는 매우 의외적이며 유망함을 보여줌

Introduction

Neural Network(NN)은 원래 생물학적 뇌에서 영감을 받았으나, 오늘날의 NNs는 실제 뇌와 매우 다른 구조와 다이나믹스를 가짐
현대 NN은 시간적 다이나믹스를 생략함으로써 대규모 딥러닝을 가능하게 했지만 이는 생물학적 기반에서 벗어난 것임
뇌는 스파이크 타이밍 의존적 가소성(STDP) 와 뉴런 동기화 등 복잡한 신경 다이나믹스를 활용함
이러한 시간적 처리 원리는 현대 AI에 부족하여, 사람 수준의 유연한 지능으로 발전하는 데 장애로 작용함
따라서 시간 처리 기능이 인공지능의 핵심 요소가 되어야 함

Why do this research?

현대 AI의 높은 성능에도 불구하고, 유연한 인간 인지와 일반성에서 본질적 차이가 존재함
인공지능이 인간 뇌 이상의 성취를 이루기 위해서는 신경 활동과 타이밍을 적극적으로 모사해야 함
본 연구에서는 Continuous Thought Machine(CTM) 을 통해 뉴런 타이밍을 핵심적 요소로 도입함
주요 기여는 내부 사고 차원의 분리, 개별 뉴런 단위의 신경 모델, 그리고 동기화 기반 표현 구조임

Reasoning models and recurrence

AI는 점점 단순 입력-출력 매핑에서 벗어나 적극적 추론 모델로 진화하고 있음
기존 RNN류 순환구조는 최근 Transformer로 대체되었으나, 순환성 자체가 모델 복잡성 확장에 유용함
현대 텍스트 생성 모델 등은 테스트 시간에 중간 생성(Recurrence)을 사용하며, 이는 추가 계산과 유연성을 제공함
CTM은 기존 방식과 다르게 내부 분리 점진 사고 차원, 개별 뉴런 수준의 타이밍, 동기화 자체를 과제 해결 표현으로 활용함

Method

구조 개요

CTM은 데이터에 대해 내부적으로 신경 활동이 펼쳐지는 구조임
각 단계마다 ‘pre-activation’ 이력을 수집해 Neuron Level Model(NLM) 에 입력함
여러 뉴런의 ‘post-activation’ 이력들을 바탕으로 뉴런 동기화 행렬을 계산하여 강력한 동기화 표현 생성
동기화 표현은 모델의 관찰과 예측의 핵심적 잠재 벡터로 쓰임

세부 구조

1. Internal recurrence(내부 순환)

내부 순환 차원을 활용해 생각의 진행이 펼쳐지는 차원을 따로 둠
각 내부 tick은 외부 시계열 데이터와 관계없이 자체 사고 단위로 작동함

2. Neuron-level models(뉴런 단위 모델)

각 뉴런은 개인화된 MLP 구조를 가지며, ‘pre-activation’의 짧은 이력을 입력받아 ‘post-activation’을 만듦

3. Synchronization as representation(동기화 표현)

일정 기간 내 모든 ‘post-activation’으로 뉴런 동기화 행렬을 계산해, 이를 핵심적 잠재 표현/행동 벡터로 삼음

입력 데이터와의 관계

데이터는 내부 순환과 동기화 중심의 처리 방식을 보완적으로 사용
동기화 상태에 따라 입력 데이터 관찰 및 예측이 이루어짐

Internal ticks: 사고 차원

CTM은 자체 사고 타임라인을 갖고, 데이터 순서와 무관하게 내부에서 반복적으로 정보를 갱신하고 정제함
이 차원에서 지능적 활동의 전개가 발생함

Recurrent weights: Synapses

U-NET 스타일 MLP를 통해 ‘pre-activation’을 산출하고, M개 최근 값을 유지함
각 뉴런은 개별 MLP로 이력 벡터(‘pre-activation’ 시계열)를 받아 ‘post-activation’을 산출함

Synchronization as a representation

뉴런간 동기화 행렬로 모델이 외부와 상호작용
동기화 값은 실제 행동 지표(출력, 관찰, attention query 등)에 직접 사용됨
모델 폭 D가 커질수록 표현력과 정보량이 제곱적으로 증가하는 특징을 가짐
attention 등 입력 데이터 모듈과 결합해 더욱 강력한 정보 처리 능력을 보임

Loss function

각 내부 tick마다 출력을 산출하고, 그에 해당하는 loss와 확신도(1-정규화 엔트로피) 를 계산함
전체 loss는 최소 손실 시점과 최대 확신 시점을 동적으로 집계하여, 문제 난이도에 맞춘 적응적 학습을 유도함

Experiment: ImageNet

Demonstrations

CTM은 이미지 데이터에 대해 다양한 attention head와 신경 동기화를 활용해 예측함
정확도, calibration, 확신 임계값 별로 다양한 지표를 시각화함

Results

CTM은 adaptive compute를 통해 사고 단계를 조절하며, 일정 단계 이후 추가 benefit이 소폭임을 관찰함
16개 attention head, 각 단계별 class 예측/정확도 및 neuron activity를 함께 시각화함

Discussion

CTM은 데이터와의 직관적이고 유연한 상호작용을 강조함
뉴런 동기화 기반의 표현을 통해 시각 인식에서도 기존 방식과 명확히 구분됨
시간(TIME) 요소가 사람들이 정보를 처리하는 방식과 근본적으로 맞닿아 있음을 시사함

Experiment: Solving 2D Mazes

The why and the how

2D 미로 풀기는 도구가 없으면 신경망 모델에 매우 어려운 과제임
CTM은 직접 경로 예측(L/R/U/D/W) 방식으로 학습되어, attention 패턴이 의도적으로 실제 경로와 일치함
일반화 테스트에서 복잡하고 긴 미로도 높은 정확성/일반화로 풀어냄

Results & Discussion

CTM은 가장 긴 경로에서도 기존 baseline 대비 압도적인 성능을 보임
인간과 유사한 전략적 내부 world model을 형성해, 단순 암기가 아닌 진짜 reasoning 능력 보유임

A World Model

position encoding 없이도 시각 정보만으로 내부 환경 모델을 생성하여 문제를 해결함

Experiment: Parity

이진 시퀀스의 중첩된 패리티(짝수/홀수 합)를 전체 입력 제공 조건에서 예측하도록 훈련함
75단계 이상의 내부 사고 tick 사용 시 CTM은 100% 정확도에 도달 가능함
LSTM은 내부 사고 tick이 많아지면 학습이 불안정해짐

Learning sequential algorithms

attention head의 움직임과 뉴런 활성 패턴에서, CTM이 데이터를 역방향/정방향 순회 전략을 각자 습득
이는 전략적 계획(Planning) 및 단계적 실행 역량 증거임

Experiment: Q&A MNIST

Memory via Synchronization

MNIST Q&A 과제로 CTM의 장기 기억/인출 가능성을 테스트함
입력 이미지가 뉴런 활성 이력 윈도우를 벗어나도 동기화로 장기 기억 정보를 보관/인출함

Results & Generalization

내부 사고 tick 수 증가에 따라 성능이 개선되며, 복잡한 질문/길이에 대한 일반화 능력 탁월함
LSTM은 더 많은 tick에서 불안정하고, CTM은 일관적으로 학습/추론함

Additional experiments

CTM versus humans

CIFAR-10에서 인간, 피드포워드, LSTM과 CTM의 성능 비교
Calibration(확률 예측 일치도)은 CTM이 인간보다 뛰어남
신경 동기화 다이나믹스가 기존 방식과 달리 매우 다양하고 복잡한 내부 특성을 나타냄

CIFAR-100, ablation studies

모델 폭이 넓을수록 뉴런의 다양성/다이나믹스 증가 관찰
내부 tick 수에 따라 문제에 따라 서로 다른 내부 사고 과정(‘두 개의 봉우리’ 분포)이 드러남

Sorting real numbers

30개 실수 정렬 실험에서, CTM은 값 사이의 거리/간극에 따라 내부 계산시간(기다림 tick)이 달라지는 emergent behavior를 보임

Reinforcement Learning

MiniGrid, CartPole 등 RL 환경에서, CTM은 내부 지속적 사고 단위를 활용해 환경과의 상호작용 및 정책 결정 수행
LSTM과 비슷한 종단 성능을 보이며, 연속적인 사고 기록을 통한 효과를 입증함

Conclusion

CTM은 생물학적 개연성과 AI 효율성의 융합을 새로운 방식으로 달성함
뉴런 단위 모델 도입, 신경 동기화 기반의 새로운 표현 방식을 활용해 그간 볼 수 없었던 표현 역량을 실현함
이미지 분류, 미로 풀기, 기억, 정렬, RL 등 다양한 작업에 구조 일관성과 높은 적응력을 보여줌
뇌과학과 머신러닝이 가지는 시너지와, 시간-동기화 중심의 사고 기계 설계의 중요성을 실증함

▲

GN⁺ 6달전 [-]

Hacker News 의견

이 논문이 우려스러운 이유는 기존의 기계학습 분야에서 생물학적으로 타당한 스파이킹 뉴럴 네트워크와 시간 의존적인 인공 신경망 관련 연구가 이미 아주 많이 있음에도 불구하고, 논문 용어와 접근이 그 방대한 선행 연구를 제대로 인정하지 않는다는 느낌을 받음, 특히 시냅틱 통합 단계를 “사고(thinking)”라고 부르는 점이 사람들에게 혼란을 줄 수 있다고 생각함, 사고란 평범한 사람이 생각하는 방식인 아이디어 생성, 평가, 수정의 반복이라는 과정인데, 논문에서는 이걸 단일 유닛 프로세스 수준에 붙이고 있음, 이는 기존의 ANN이나 머신러닝 용어와도 매우 동떨어진 것임, “사고”라는 이 표기는 적절하지 않은 느낌임, 모든 인용을 살펴보진 않았고 친숙한 연구 흐름의 문장에 즉각적인 반응을 한 것임
- 미안하다는 말을 전하면서, 원래 이 댓글에 답변하려 했지만 별도의 답변을 부모 댓글 스레드에 남겼음, 논문이 생물학적 스파이킹 네트워크를 모방하려는 시도는 상당히 느슨하게만 보여지고 실제로는 출력 행렬의 전치 곱(dot product)을 사용한 점이 주요 공헌이고, 나머지는 입력에 대한 디퓨전/어텐션 기법임, 입력 어텐션과 출력 어텐션을 결합해 계단식 재귀 모델을 만든 형태임
- 지난 10~20년 동안 신경과학 관련 연구를 인정한 기계학습 연구자들은 자기 과시라는 비판을 많이 받아온 것 같음, 그래서 딱히 놀라지는 않음
- 이 논문은 마치 새로운 아이디어인 듯 발표하지만, 수십 년간의 스파이킹 뉴럴넷 연구나 유사 분야에 거의 언급을 하지 않고 있음
- 생물학적 영감을 받은 알고리즘 개념과 구현에 대해 가장 통찰력 있다고 생각하는 책이나 논문 목록 혹은 간략 리뷰를 공유해주면 고맙겠음
- 저자들은 단일 시냅스 통합을 “사고”라고 부르지 않고, 외부 입력마다 “내부 틱”이라 하여 네트워크 전체의 내부 루프에서 그 용어를 쓴다고 밝히며, “사고”와 유사하다고 명시적으로 적어놓았음
- 이 논문 혹시 Jürgen Schmidhuber가 쓴 것인지 궁금함
이 중요한 주제로 다시 집중하는 것이 아주 반가움, 생물 뇌와 신체 맥락에서는 “시간”을 선형적 뉴턴식 시간으로 생각하기 쉬우나 뇌-신체 시스템에서 핵심적인 것은, 300ms의 “표상 현재”에서부터 소리 위치를 평가하는 세포의 50마이크로초 같은 다양한 “현재” 조각 안에, 질서 정연한 행동과 연산의 순서를 만드는 것임, 조건적인 시간성(temporality)에 대해 더 알고 싶으면 European Journal of Neuroscience의 John Bickle이 RW Williams를 인터뷰한 최근 논문을 참고하면 좋겠음
내 논문 독후감으로는, 논문이 생물학적/스파이킹 네트워크와는 사실 전혀 다르다고 느낌, 논문에서는 입력들의 히스토리를 보존하고 멀티-헤드 어텐션을 써서 현재 출력에 과거 “프리-시냅틱” 입력이 어떻게 반영되는지 내부 모델을 만듦, 이건 약간 수정된 트랜스포머처럼 입력 히스토리를 보존하고 어텐션으로 출력을 만드는 구조임, “동기화”라는 것도 포스트 액티베이션 전체를 내적해서 얻는 것이며, 이 내적 결과 행렬을 출력 공간에 프로젝션 시킴, 각 타임스텝에 올바른 값을 만들도록 여러 출력이 곱해져야 하므로 이런 결합이 “동기화”라고 부른 것 같음, 이는 여러 출력 값을 행렬로 합쳐서 각 값의 개별성보다 조합의 중요성을 부각시키는, 일종의 “희소성” 유도가 되어 보임, 이런 방식은 여러 서브시스템에서 나온 출력을 내적해서 합치는 어텐션의 기본 메커니즘임
- 논문의 약점은 성능 비교 대상이 LSTM(단순 순환모델)에 국한되어 있다는 점임, 여러 층의 입력/출력 어텐션만으로도 유사한 구조 및 성능이 나올 수 있을 것 같음, 실제 트랜스포머는 약간 다르지만 논문이 쓰는 input attention + unet 구조와 큰 차이는 없음
이번 주말에 흥미로운 세 가지가 있음: 1) 연속적 사고 머신(생뇌 비슷한 시계열 인코딩 신경망), 2) “제로 데이터 리즈닝”(방대한 데이터로 미리 학습하는 대신 직접 행위로 배우는 AI), 3) Intellect-2(전 세계에 분산된 강화학습 구조), 비전문가 입장에서 보면 특이점(singularity) 한 발짝 더 다가간 기분임
- 내가 보기엔 그정도 느낌이 들지 않음, 너무 많은 논문들과 다양한 연구 방향성들 덕에 어떤 것이 diffusion, transformer, AlphaZero, Chat GPT-3 등처럼 대박이 날지 예측이 힘듦, 급진적 발전처럼 보여도 이런 진보는 수많은 연구와 시행착오의 누적으로 만들어짐, 세 가지 진보가 모두 잘 합쳐질 수 있으면 좋겠지만 나도 모르겠음
- 개별 논문에 너무 큰 의미를 부여하지 않는 게 좋을 것 같음, 최선의 경우 수많은 기반 연구를 무시하게 되며, 최악의 경우 장밋빛 기대로 한 아이디어에 과하게 기대를 거는 셈임
- Intellect-2와 zero data reasoning은 모두 LLM에서 동작하는 구조임(“제로 데이터 리즈닝”이란 이름이 오히려 오해를 유발할 수 있음), 진정한 LLM 혁신을 원한다면, InceptionLabs가 diffusion 모델로 추론을 16배 높인 방법을 살펴보는 게 좋음, 우리의 시계열 강화학습 알고리즘 성능은 추론모델과 비교하면 한참 부족하며, AI 붐에도 불구하고 로보틱스와 자율주행은 여전히 막혀 있음, 이 논문 기법도 가능성은 있으나, 누군가 용어를 좀 더 정제해서 소화시키면 더 좋겠음, 아직은 대규모 모델일수록 보상 함수의 허점을 잘 찾아내는 현상 때문에 여러 분야에서 쓸모 있는 AI 달성까지는 아직 멀었다는 생각임
- 논문 구현을 실제로 돌려보면 종종 결과가 논문에서 광고한 것만큼 잘 되지 않거나 코드가 누락된 경우가 많음, AI 하이프에 휘둘리지 않으려면 논문의 구체적 결과와 한계를 읽고, 코드가 있으면 받아서 돌려보며, 학습셋 외 입력에 대한 테스트도 해보는 습관이 필요함
- 나 역시 전문가가 아니지만, 이걸 보고 마치 카메라, 액츄에이터, 배터리를 발명했다는 이유로 곧 로봇이 세계를 지배할 거라 보는 것과 비슷한 생각임, 즉, 이건 도약이 아니라 베이비 스텝 같음
- 비판이 일축되지는 않음, 특별히 널리 알려진 논문과 프로젝트 자체가 take-off나 AGI 같은 획기적 진보라는 점에는 이의가 많을 수 있음, 하지만 이런 논문들이 더 거대한 연구 방향성의 대리인일 수도 있음, 그러니까 “베이비 버니”가 일관된 방향으로 자잘한 점프를 계속하고 있는 상황이라는 느낌임, 어느 순간을 점프라고 부를 지는 보는 이에 따라 다르고, 어쨌든 토끼는 앞으로 움직이고 있음
스파이크 타이밍 및 동기화 같은 시계열 부호화 메커니즘을 구현하는 일은 매우 어렵고, 그래서 현대 신경망은 시간적 동역학 대신 단순성과 계산 효율성에 초점을 맞춤, 진짜 타임 도메인을 시뮬레이션하는 일은 하드웨어 입장에서도 매우 어려운 문제임, 특히 별도의 하이퍼파라미터 축이 늘어나기 때문에 유효한 파라미터 조합 찾기가 거의 불가능함, 계산 효율이 좋은 구조를 찾는 것이 훨씬 빠르므로, 미래 타임스텝에 스파이크가 발생하면 우선순위 큐 같은 이벤트 구조가 생겨서 계산량이 훅 늘어남, 만약 정말 “하드 리얼타임 상호작용”이 목표라면 모르겠지만, 실용적·제품적 입장에선 이런 구조를 쫓는 것이 별 의미 없다고 생각함, STDP(스파이크 시차에 따른 가중치 변경)로 온라인 비지도 학습이 가능하다는 점은 아직도 굉장히 매력적으로 여겨지지만, 당분간 실리콘 기반에서는 길이 없어 보임, 전용 하드웨어를 쓰는 것은 하이퍼파라미터 일부를 코드에서 상수로 박는 꼴이라 확실성을 보장하기도 어렵고 자금도 충분치 않게 됨
- 예를 들어 중간 규모 FF(피드포워드) 아키텍처에 입력 배치 하나 처리하는 데 100ms 걸린다면, CTM 구조에서 10ms를 FF 축에 쓰고 거기에 10개의 내부 “틱”을 곱하면 어떻게 될까?, 숫자는 대충이지만 결국은 명시적 타임 축에 대한 귀납적 편향이 정말 의미가 있느냐의 문제임, 그런 구조도 동일한 검색 난이도를 가질 수 있지 않을까 생각임
이 기계들의 아이디어 자체가 완전히 새로운 건 아님, 2002년 논문에서 Liquid State Machines(LSM)이 소개됐고, LSM은 연속 입력을 스파이킹 신경망에 공급하여 네트워크 전체 뉴런과 연결된 덴스 레이어로 liquid state를 읽는 방식임, 2019년 논문에서는 LSM을 아타리 게임 플레이에 사용했고, 때로는 인간을 능가해도 항상 그런 것은 아니었으며, 기존 신경망 한계와 유사하게 실패하는 경향도 발견됨, 전통적인 신경망에 비해 성능이 특별히 높지는 않았음, 나는 입력(예: 오디오)을 연속적으로 처리하고 연속적으로 출력하며, 뇌의 plasticity 원리만(역전파 없이) 적용한 신경망 연구에 더 많은 관심이 생겼으면 좋겠음, 나 역시 직접 시도해봤으나 뇌의 작동법을 충분히 모르는 것인지 아직 완벽한 답은 모르겠음
아이러니하게도 이 웹페이지가 firefox iOS에서 계속 새로고침됨
- 내 브라우저에서는 아예 열리지도 않음
다음 세대 모델의 핵심은 “함께 발화한 뉴런은 함께 연결됨(neurons that fire together wire together)” 원리가 될 것임, 스파이킹 뉴럴 네트워크가 대안적 접근으로 아주 흥미로움을 제공한다고 생각함

답변달기