# 더 적은 것이 더 많음: 작은 네트워크로 구현하는 재귀적 추론

> Clean Markdown view of GeekNews topic #23547. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23547](https://news.hada.io/topic?id=23547)
- GeekNews Markdown: [https://news.hada.io/topic/23547.md](https://news.hada.io/topic/23547.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-10T03:45:06+09:00
- Updated: 2025-10-10T03:45:06+09:00
- Original source: [alexiajm.github.io](https://alexiajm.github.io/2025/09/29/tiny_recursive_models.html)
- Points: 3
- Comments: 1

## Topic Body

- **Tiny Recursion Model (TRM)** 은 약 7M 파라미터의 소규모 신경망으로도 **ARC-AGI-1에서 45%** , **ARC-AGI-2에서 8%** 의 높은 성능을 달성함
- 거대 언어 모델이 아니어도 **재귀적 추론 방식**을 적용해 어려운 문제를 해결할 수 있음을 입증함
- 이 모델은 기존 **Hierarchical Reasoning Model (HRM)** 의 복잡한 구조를 단순화하여 핵심적인 **재귀 추론 프로세스**만 남김
- TRM은 인간 두뇌나 복잡한 수학적 정리, 계층 구조 없이 작고 효율적인 모델로 답변 품질을 지속적으로 개선함
- 본 논문은 **모델의 크기보다 새로운 접근 방식**이 어려운 문제 해결에 중요함을 강조함

---

### 개요

- 이 논문에서는 **Tiny Recursion Model (TRM)** 이라는 새로운 재귀적 추론 모델을 제안함
- TRM은 매우 작은 **7M 파라미터**로 구성된 신경망임에도 **ARC-AGI-1에서 45%** , **ARC-AGI-2에서 8%** 라는 의미 있는 정확도 기록을 세움
- 본 모델은 대기업이 수백만 달러를 들여 학습시킨 대형 모델이 아니어도, 효율적 재귀 추론을 통해 복잡한 문제를 충분히 풀 수 있음을 실험적으로 보여줌
- 현재 업계에서는 **LLM의 활용**에만 집중하는 과도현상이 있지만, TRM은 **새로운 추론 및 학습 방향성이 중요함**을 시사함

### 기존 연구와의 차별점

- 기존 **Hierarchical Reasoning Model (HRM)** 에서는 생물학적 논리나 복잡한 계층 구조, 수학적 정리(고정점 정리 등)에 대한 의존도가 높았음
- TRM은 이러한 복잡성을 제거하고, 가장 단순화된 **재귀 추론 핵심 메커니즘**만 남김으로써 설계와 구현 모두 직관적으로 단순화시킴
- 인간 두뇌의 구조나 이론적 배경 없이도 **재귀적 자기 반복 과정을 통해 답변 정확도를 지속적으로 향상**시키는 것이 핵심임

### TRM 동작 방식

- 입력 질문 x, 초기 답변 y, 은닉 상태 z를 임베딩하여 시작함
- 최대 K번의 **개선 스텝** 동안, 다음 두 단계가 반복적으로 실행됨:
   - i) 현재 질문 x, 답변 y, 은닉 z 상태로부터 은닉 z값을 n회 반복적으로 업데이트함(**재귀적 reasoning**)
   - ii) 현재 답변 y와 새 은닉 z로부터 답변 y를 다시 업데이트하여 더 나은 답변을 도출함
- 이러한 재귀적 반복 과정은 **모델 파라미터 증가 없이** 답변 품질을 지속적으로 개선하며, 오버피팅 위험도 줄임

### 결론

- TRM 연구는 **모델 크기가 성공에 반드시 필수적인 요소가 아님**을 입증함
- 재귀적 추론 원리만으로도 소규모 신경망이 대형 모델에 근접하는 성과를 달성할 수 있음을 실험으로 보여줌
- 미래의 인공지능 연구에 있어 효율적이고 **창의적인 새 방향성 개발의 중요성**을 강조함
- 보다 자세한 내용은 [논문](https://arxiv.org/abs/2510.04871)에서 확인 가능함

## Comments


### Comment 44765

- Author: neo
- Created: 2025-10-10T03:45:06+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45506268) 
* 모든 사람에게 ARC-AGI 주최 측의 HRM 관련 [블로그 글](https://arcprize.org/blog/hrm-analysis)을 꼭 정독하길 권장함  
  같은 데이터 증강/‘test time training’ 조건이라면, 기본 Transformer도 HRM에서 보고된 “대단한 성과”에 거의 근접한 결과를 내는 것으로 나옴  
  이 논문도 ARC-AGI에 대해 비슷한 조건으로 자신을 비교하고 있는 듯함  
  나 역시 더 작은 모델로 뛰어난 추론 성능을 얻고 싶음  
  하지만 ARC-AGI가 무엇을 평가하는지, 상용 LLM끼리 비교에 사용하는 일반적인 세팅은 무엇인지, 그리고 HRM이나 이 논문에서 쓰는 특수한 세팅이 무엇인지 먼저 이해할 필요가 있음  
  벤치마크 네이밍이 과도한 기대를 유발하는 경향이 있는데, HRM과 이번 논문에서 모두 그런 모습을 발견함

  * TRM 논문에서 해당 [블로그 글](https://arcprize.org/blog/hrm-analysis)을 이미 다루고 있음  
    HRM 분석글을 너무 세밀하게 볼 필요 없고, TRM은 HRM 대비 disentangled 구조라 ablation이 훨씬 쉬움  
    arcprize HRM 블로그의 진짜 가치는 ablation 테스트의 중요성을 강조하는 데 있다고 생각함  
    ARC-AGI는 모든 모델을 위한 챌린지로 기획된 것임  
    LLM 정도 대규모 언어 모델의 추론력이 있어야 풀 수 있다고 가정했는데, 이게 오해였던 것 같음  
    HRM과 TRM이 ARC-AGI 샘플의 소량 데이터셋으로 특화 훈련된 반면, LLM은 그렇지 않은가라는 점을 묻고 싶음  
    아니면 어떤 차이점을 강조하는지 궁금함

* “기본 Transformer”라기보다는 “recurrent 구조를 갖춘 Transformer 유사 아키텍처”임  
  이 방식은 여전히 재미있는 실험 주제임  
  분명 장점이 있지만, 실제로 더 나은 Transformer라고는 생각하지 않음  
  현재 받는 만큼의 과도한 주목은 좀 과한 느낌임

* 이번 내용을 보니 다시 한 번 Finite Impulse Response ([FIR](https://en.wikipedia.org/wiki/Finite_impulse_response)) 필터(기존 LLM)와 Infinite Impulse Response ([IIR](https://en.wikipedia.org/wiki/Infinite_impulse_response)) 필터(재귀적 모델)와의 유사성이 떠오름  
  뛰어난 비유거나 독창적이진 않지만, FIR에서는 유사한 컷오프 특성을 얻으려면 IIR보다 훨씬 많은 계수가 필요함  
  예를 들어 [window design method](https://en.wikipedia.org/wiki/Finite_impulse_response#Window_design_method)로 IIR을 FIR로 바꿀 수 있고, 그럴 경우 재귀 구조를 펼쳐서 유한 깊이에서 멈추게 됨  
  이와 비슷하게, TRM을 언롤링하면 전통적인 LLM 아키텍처에서 global feedback만 뺀 attention+ff block 반복 구조가 됨  
  게다가 TRM은 실제 IIR과 달리 유한한 컷오프를 구현하니 구조적으로는 FIR/LLM에 더 가깝다고 보임  
  TRM을 유사하게 펼친 구조와 비교해보는 것도 흥미로울 것 같음  
  다만, 잠 부족한 망상에서 나온 생각일 수도 있음

  * Deep Equilibrium Models를 소개하고 싶음  
    기존 딥 시퀀스 모델 대부분의 히든 레이어가 어떤 고정점으로 수렴한다는 관찰에서 출발해, 아예 root finding으로 고정점 자체를 찾는 방식임  
    이 접근법은 무한 깊이(weight-tied) 피드포워드 네트워크를 돌리는 것과 동등하면서, 암시적 미분으로 역전파도 가능함  
    ([arxiv 논문 링크](https://arxiv.org/abs/1909.01377))  
    Deep equilibrium 모델이 흥미로운 점은, 단 하나의 레이어로도 여러 레이어를 쌓은 딥 러닝 네트워크와 동등해질 수 있다는 부분임  
    재귀성만 있으면 됨  
    작업 난이도에 따라 반복 횟수를 스스로 조절함

* HRM을 교육 목적으로 구현했고 경로 찾기에서 좋은 성능을 얻었음  
  이후 ablation 실험을 해보니 ARC-AGI 팀과 같은 결론(즉 HRM 아키텍처 자체는 별로 역할이 없음)에 도달함  
  좀 아쉬운 감정임  
  latent space reasoning에 뭔가 가능성이 있다고 생각함  
  [구현 저장소](https://github.com/krychu/hrm)

  * 훌륭한 작업이라 생각함, 정리해서 공유해줘서 고마움  
    복제와 경험 공유가 정말 중요함

* [arXiv 논문](https://arxiv.org/abs/2506.21734)에서 밝혀진 결과가 실제로 확장 가능하다는 뜻인가 궁금함  
  이 결과가 실제 응용에도 통한다면 확실히 혁신적일 것 같음  
  한편, 만약 그렇다면 현재 AI 데이터센터 설비에 들어갈 천문학적 투자 금액이 한순간에 무의미해질 수도 있겠다는 재밌는 상상도 하게 됨  
  (물론 오래 가진 않겠지만)

  * HRM 얘기를 할 땐 [arcprize HRM 분석글](https://arcprize.org/blog/hrm-analysis)은 꼭 참고해야 함  
    이번 논문은 HRM을 단순화한 버전으로 보이고, 바로 이 분석글의 ablation 연구도 참고한 것 같음  
    HRM은 일반 transformer LLM처럼 널리 적용 가능한 구조가 아니라는 점도 중요함  
    아직 일반적 생성 AI 업무에는 HRM이 통했다는 증거 없음  
    논문을 읽고 있지만, 이번 구조도 HRM과 비슷한 과제(ex. ARC-AGI 같은 공간 추론)에 적합하고, 더 범용적 아키텍처로 통합이 필요한 상황임

  * 이 경우 제본스의 역설(Jevon’s paradox)가 적용된다고 생각함  
    AI/전력 단가가 내려가면 수요가 더 올라감

  * AI 버블이 AI 기술이 너무 좋아져서 효율이 극단적으로 올라가면 무너진다는 전개, 그럴듯함

  * AI 데이터센터 설비투자가 무의미해질 수 있다는 말에 대해  
    GPU 연산은 텍스트 추론용만이 아니고, 특히 비디오 생성 수요는 혁신이 생겨도 한동안 포화되기 힘들 것 같음

  * 실제로 그런 성과가 나오면, 업계는 거의 즉각 이 방식을 도입해서 더 크고 강력한 모델을 훈련하는 쪽으로 나아갈 것임

* “7M 파라미터로 TRM이 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 테스트 정확도를 획득, 이는 Deepseek R1, o3-mini, Gemini 2.5 Pro와 같은 대부분의 LLM보다 높고, 파라미터는 0.01% 미만”  
  정말 인상적임  
  참고로 구조적으로는 Jeff Hawkins의 “On Intelligence”에서 제안한 Hierarchical Temporal Memory와 비슷하게 느껴짐  
  (물론 sparsity 특성은 없지만, 계층적/시간적 요소는 유사함)  
  [HTM 위키](https://en.wikipedia.org/wiki/Hierarchical_temporal_memory), [Numenta](https://www.numenta.com)

  * sparsity가 없다는 점이 현재 LLM 방식의 아킬레스건일 수 있다는 생각임

* 요약  
  Hierarchical Reasoning Model(HRM)은 두 개의 작은 신경망을 서로 다른 주기로 재귀적으로 돌리는 참신한 접근임  
  생물학적 영감을 받아 만들어졌고, 작은 모델(27M 파라미터)과 작고 적은 데이터(1000개 내외)로 Sudoku, Maze, ARC-AGI 같은 어려운 퍼즐류에서 대형 LLM을 능가함  
  아직 완전히 이해된 구조는 아니고 성능이 최적은 아닐 수도 있음  
  우리는 훨씬 더 단순한 재귀적 추론 방식(TRM, Tiny Recursive Model)을 제안하고, 이 모델은 2 레이어 작은 네트워크로 HRM보다 훨씬 뛰어난 일반화 성능을 보임  
  단 7M 파라미터로 대형 LLM을 능가함(ARC-AGI-1 45%, ARC-AGI-2 8% 테스트 정확도, 파라미터는 0.01% 미만)

  * 단 7M 파라미터로 대형 LLM을 능가한다는 결과는 상당히 매력적임  
    다만 뭔가 숨겨진 한계가 있을 수도 있을 것 같아 궁금함

* ARC 문제에서 recurrence의 효과가 좋은 결과를 내는 걸 보니 흥미로움  
  만약 recurrence에 관심이 있다면, 다른 문제에 이 모델을 적용한 아래 논문들도 참고하면 좋겠음  
  - Language modeling: [Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach](https://arxiv.org/pdf/2502.05171)  
  - 퍼즐 문제 해결: [A Simple Loss Function for Convergent Algorithm Synthesis using RNNs](https://openreview.net/pdf?id=WaAJ883AqiY)  
  - end-to-end 알고리즘 생성: [End-to-end Algorithm Synthesis with Recurrent Networks](https://arxiv.org/abs/2202.05826), [Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks](https://proceedings.neurips.cc/paper/2021/file/3501672ebc68a5524629080e3ef60aef-Paper.pdf)  
  - 일반적 접근: [Think Again Networks and the Delta Loss](https://arxiv.org/pdf/1904.11816), [Universal Transformers](https://arxiv.org/abs/1807.03819), [Adaptive Computation Time for Recurrent Neural Networks](https://arxiv.org/pdf/1603.08983)

* 전반적으로 transformer RNN 계열이 마음에 듦  
  본질적으로 EBM이 에너지 랜드스케이프를 배워서 해답으로 끌려 들어가는 구조임  
  discrete 문제를 점진적으로 convex하게 푸는 느낌임  
  neural cellular automata, flow matching/diffusion 등과 비슷한 점을 떠올리게 함  
  이 방식은 제어 문제에도 희망적임  
  상태 공간을 계속 굴러다니며 각 단계마다 유효한 액션만 고르는 식임

* 이거 neuralese Chain-of-Thought(CoT)랑 본질적으로 똑같지 않나 싶은 생각임  
  z/z_L을 reasoning embedding이라고 명시적으로 부르고 있고, 이게 재귀 과정을 거치며 변화하거나 유지되면서 출력 embedding(z_H/y)을 점점 다듬는 역할임  
  진짜 neuralese CoT/추론 체인 아닌가 싶음