더 적은 것이 더 많음: 작은 네트워크로 구현하는 재귀적 추론

(alexiajm.github.io)

3P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Tiny Recursion Model (TRM) 은 약 7M 파라미터의 소규모 신경망으로도 ARC-AGI-1에서 45% , ARC-AGI-2에서 8% 의 높은 성능을 달성함
거대 언어 모델이 아니어도 재귀적 추론 방식을 적용해 어려운 문제를 해결할 수 있음을 입증함
이 모델은 기존 Hierarchical Reasoning Model (HRM) 의 복잡한 구조를 단순화하여 핵심적인 재귀 추론 프로세스만 남김
TRM은 인간 두뇌나 복잡한 수학적 정리, 계층 구조 없이 작고 효율적인 모델로 답변 품질을 지속적으로 개선함
본 논문은 모델의 크기보다 새로운 접근 방식이 어려운 문제 해결에 중요함을 강조함

개요

이 논문에서는 Tiny Recursion Model (TRM) 이라는 새로운 재귀적 추론 모델을 제안함
TRM은 매우 작은 7M 파라미터로 구성된 신경망임에도 ARC-AGI-1에서 45% , ARC-AGI-2에서 8% 라는 의미 있는 정확도 기록을 세움
본 모델은 대기업이 수백만 달러를 들여 학습시킨 대형 모델이 아니어도, 효율적 재귀 추론을 통해 복잡한 문제를 충분히 풀 수 있음을 실험적으로 보여줌
현재 업계에서는 LLM의 활용에만 집중하는 과도현상이 있지만, TRM은 새로운 추론 및 학습 방향성이 중요함을 시사함

기존 연구와의 차별점

기존 Hierarchical Reasoning Model (HRM) 에서는 생물학적 논리나 복잡한 계층 구조, 수학적 정리(고정점 정리 등)에 대한 의존도가 높았음
TRM은 이러한 복잡성을 제거하고, 가장 단순화된 재귀 추론 핵심 메커니즘만 남김으로써 설계와 구현 모두 직관적으로 단순화시킴
인간 두뇌의 구조나 이론적 배경 없이도 재귀적 자기 반복 과정을 통해 답변 정확도를 지속적으로 향상시키는 것이 핵심임

TRM 동작 방식

입력 질문 x, 초기 답변 y, 은닉 상태 z를 임베딩하여 시작함
최대 K번의 개선 스텝 동안, 다음 두 단계가 반복적으로 실행됨:
- i) 현재 질문 x, 답변 y, 은닉 z 상태로부터 은닉 z값을 n회 반복적으로 업데이트함(재귀적 reasoning)
- ii) 현재 답변 y와 새 은닉 z로부터 답변 y를 다시 업데이트하여 더 나은 답변을 도출함
이러한 재귀적 반복 과정은 모델 파라미터 증가 없이 답변 품질을 지속적으로 개선하며, 오버피팅 위험도 줄임

결론

TRM 연구는 모델 크기가 성공에 반드시 필수적인 요소가 아님을 입증함
재귀적 추론 원리만으로도 소규모 신경망이 대형 모델에 근접하는 성과를 달성할 수 있음을 실험으로 보여줌
미래의 인공지능 연구에 있어 효율적이고 창의적인 새 방향성 개발의 중요성을 강조함
보다 자세한 내용은 논문에서 확인 가능함

▲

GN⁺ 2달전 [-]

Hacker News 의견

모든 사람에게 ARC-AGI 주최 측의 HRM 관련 블로그 글을 꼭 정독하길 권장함
같은 데이터 증강/‘test time training’ 조건이라면, 기본 Transformer도 HRM에서 보고된 “대단한 성과”에 거의 근접한 결과를 내는 것으로 나옴
이 논문도 ARC-AGI에 대해 비슷한 조건으로 자신을 비교하고 있는 듯함
나 역시 더 작은 모델로 뛰어난 추론 성능을 얻고 싶음
하지만 ARC-AGI가 무엇을 평가하는지, 상용 LLM끼리 비교에 사용하는 일반적인 세팅은 무엇인지, 그리고 HRM이나 이 논문에서 쓰는 특수한 세팅이 무엇인지 먼저 이해할 필요가 있음
벤치마크 네이밍이 과도한 기대를 유발하는 경향이 있는데, HRM과 이번 논문에서 모두 그런 모습을 발견함
- TRM 논문에서 해당 블로그 글을 이미 다루고 있음
  HRM 분석글을 너무 세밀하게 볼 필요 없고, TRM은 HRM 대비 disentangled 구조라 ablation이 훨씬 쉬움
  arcprize HRM 블로그의 진짜 가치는 ablation 테스트의 중요성을 강조하는 데 있다고 생각함
  ARC-AGI는 모든 모델을 위한 챌린지로 기획된 것임
  LLM 정도 대규모 언어 모델의 추론력이 있어야 풀 수 있다고 가정했는데, 이게 오해였던 것 같음
  HRM과 TRM이 ARC-AGI 샘플의 소량 데이터셋으로 특화 훈련된 반면, LLM은 그렇지 않은가라는 점을 묻고 싶음
  아니면 어떤 차이점을 강조하는지 궁금함
“기본 Transformer”라기보다는 “recurrent 구조를 갖춘 Transformer 유사 아키텍처”임
이 방식은 여전히 재미있는 실험 주제임
분명 장점이 있지만, 실제로 더 나은 Transformer라고는 생각하지 않음
현재 받는 만큼의 과도한 주목은 좀 과한 느낌임
이번 내용을 보니 다시 한 번 Finite Impulse Response (FIR) 필터(기존 LLM)와 Infinite Impulse Response (IIR) 필터(재귀적 모델)와의 유사성이 떠오름
뛰어난 비유거나 독창적이진 않지만, FIR에서는 유사한 컷오프 특성을 얻으려면 IIR보다 훨씬 많은 계수가 필요함
예를 들어 window design method로 IIR을 FIR로 바꿀 수 있고, 그럴 경우 재귀 구조를 펼쳐서 유한 깊이에서 멈추게 됨
이와 비슷하게, TRM을 언롤링하면 전통적인 LLM 아키텍처에서 global feedback만 뺀 attention+ff block 반복 구조가 됨
게다가 TRM은 실제 IIR과 달리 유한한 컷오프를 구현하니 구조적으로는 FIR/LLM에 더 가깝다고 보임
TRM을 유사하게 펼친 구조와 비교해보는 것도 흥미로울 것 같음
다만, 잠 부족한 망상에서 나온 생각일 수도 있음
- Deep Equilibrium Models를 소개하고 싶음
  기존 딥 시퀀스 모델 대부분의 히든 레이어가 어떤 고정점으로 수렴한다는 관찰에서 출발해, 아예 root finding으로 고정점 자체를 찾는 방식임
  이 접근법은 무한 깊이(weight-tied) 피드포워드 네트워크를 돌리는 것과 동등하면서, 암시적 미분으로 역전파도 가능함
  (arxiv 논문 링크)
  Deep equilibrium 모델이 흥미로운 점은, 단 하나의 레이어로도 여러 레이어를 쌓은 딥 러닝 네트워크와 동등해질 수 있다는 부분임
  재귀성만 있으면 됨
  작업 난이도에 따라 반복 횟수를 스스로 조절함
HRM을 교육 목적으로 구현했고 경로 찾기에서 좋은 성능을 얻었음
이후 ablation 실험을 해보니 ARC-AGI 팀과 같은 결론(즉 HRM 아키텍처 자체는 별로 역할이 없음)에 도달함
좀 아쉬운 감정임
latent space reasoning에 뭔가 가능성이 있다고 생각함
구현 저장소
- 훌륭한 작업이라 생각함, 정리해서 공유해줘서 고마움
  복제와 경험 공유가 정말 중요함
arXiv 논문에서 밝혀진 결과가 실제로 확장 가능하다는 뜻인가 궁금함
이 결과가 실제 응용에도 통한다면 확실히 혁신적일 것 같음
한편, 만약 그렇다면 현재 AI 데이터센터 설비에 들어갈 천문학적 투자 금액이 한순간에 무의미해질 수도 있겠다는 재밌는 상상도 하게 됨
(물론 오래 가진 않겠지만)
- HRM 얘기를 할 땐 arcprize HRM 분석글은 꼭 참고해야 함
  이번 논문은 HRM을 단순화한 버전으로 보이고, 바로 이 분석글의 ablation 연구도 참고한 것 같음
  HRM은 일반 transformer LLM처럼 널리 적용 가능한 구조가 아니라는 점도 중요함
  아직 일반적 생성 AI 업무에는 HRM이 통했다는 증거 없음
  논문을 읽고 있지만, 이번 구조도 HRM과 비슷한 과제(ex. ARC-AGI 같은 공간 추론)에 적합하고, 더 범용적 아키텍처로 통합이 필요한 상황임
- 이 경우 제본스의 역설(Jevon’s paradox)가 적용된다고 생각함
  AI/전력 단가가 내려가면 수요가 더 올라감
- AI 버블이 AI 기술이 너무 좋아져서 효율이 극단적으로 올라가면 무너진다는 전개, 그럴듯함
- AI 데이터센터 설비투자가 무의미해질 수 있다는 말에 대해
  GPU 연산은 텍스트 추론용만이 아니고, 특히 비디오 생성 수요는 혁신이 생겨도 한동안 포화되기 힘들 것 같음
- 실제로 그런 성과가 나오면, 업계는 거의 즉각 이 방식을 도입해서 더 크고 강력한 모델을 훈련하는 쪽으로 나아갈 것임
“7M 파라미터로 TRM이 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 테스트 정확도를 획득, 이는 Deepseek R1, o3-mini, Gemini 2.5 Pro와 같은 대부분의 LLM보다 높고, 파라미터는 0.01% 미만”
정말 인상적임
참고로 구조적으로는 Jeff Hawkins의 “On Intelligence”에서 제안한 Hierarchical Temporal Memory와 비슷하게 느껴짐
(물론 sparsity 특성은 없지만, 계층적/시간적 요소는 유사함)
HTM 위키, Numenta
- sparsity가 없다는 점이 현재 LLM 방식의 아킬레스건일 수 있다는 생각임
요약
Hierarchical Reasoning Model(HRM)은 두 개의 작은 신경망을 서로 다른 주기로 재귀적으로 돌리는 참신한 접근임
생물학적 영감을 받아 만들어졌고, 작은 모델(27M 파라미터)과 작고 적은 데이터(1000개 내외)로 Sudoku, Maze, ARC-AGI 같은 어려운 퍼즐류에서 대형 LLM을 능가함
아직 완전히 이해된 구조는 아니고 성능이 최적은 아닐 수도 있음
우리는 훨씬 더 단순한 재귀적 추론 방식(TRM, Tiny Recursive Model)을 제안하고, 이 모델은 2 레이어 작은 네트워크로 HRM보다 훨씬 뛰어난 일반화 성능을 보임
단 7M 파라미터로 대형 LLM을 능가함(ARC-AGI-1 45%, ARC-AGI-2 8% 테스트 정확도, 파라미터는 0.01% 미만)
- 단 7M 파라미터로 대형 LLM을 능가한다는 결과는 상당히 매력적임
  다만 뭔가 숨겨진 한계가 있을 수도 있을 것 같아 궁금함
ARC 문제에서 recurrence의 효과가 좋은 결과를 내는 걸 보니 흥미로움
만약 recurrence에 관심이 있다면, 다른 문제에 이 모델을 적용한 아래 논문들도 참고하면 좋겠음
- Language modeling: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- 퍼즐 문제 해결: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- end-to-end 알고리즘 생성: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- 일반적 접근: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
전반적으로 transformer RNN 계열이 마음에 듦
본질적으로 EBM이 에너지 랜드스케이프를 배워서 해답으로 끌려 들어가는 구조임
discrete 문제를 점진적으로 convex하게 푸는 느낌임
neural cellular automata, flow matching/diffusion 등과 비슷한 점을 떠올리게 함
이 방식은 제어 문제에도 희망적임
상태 공간을 계속 굴러다니며 각 단계마다 유효한 액션만 고르는 식임
이거 neuralese Chain-of-Thought(CoT)랑 본질적으로 똑같지 않나 싶은 생각임
z/z_L을 reasoning embedding이라고 명시적으로 부르고 있고, 이게 재귀 과정을 거치며 변화하거나 유지되면서 출력 embedding(z_H/y)을 점점 다듬는 역할임
진짜 neuralese CoT/추론 체인 아닌가 싶음

답변달기