더 적은 것이 더 많음: 작은 네트워크로 구현하는 재귀

▲

GN⁺ 7달전 | parent | ★ favorite | on: 더 적은 것이 더 많음: 작은 네트워크로 구현하는 재귀적 추론(alexiajm.github.io)

Hacker News 의견

모든 사람에게 ARC-AGI 주최 측의 HRM 관련 블로그 글을 꼭 정독하길 권장함
같은 데이터 증강/‘test time training’ 조건이라면, 기본 Transformer도 HRM에서 보고된 “대단한 성과”에 거의 근접한 결과를 내는 것으로 나옴
이 논문도 ARC-AGI에 대해 비슷한 조건으로 자신을 비교하고 있는 듯함
나 역시 더 작은 모델로 뛰어난 추론 성능을 얻고 싶음
하지만 ARC-AGI가 무엇을 평가하는지, 상용 LLM끼리 비교에 사용하는 일반적인 세팅은 무엇인지, 그리고 HRM이나 이 논문에서 쓰는 특수한 세팅이 무엇인지 먼저 이해할 필요가 있음
벤치마크 네이밍이 과도한 기대를 유발하는 경향이 있는데, HRM과 이번 논문에서 모두 그런 모습을 발견함
- TRM 논문에서 해당 블로그 글을 이미 다루고 있음
  HRM 분석글을 너무 세밀하게 볼 필요 없고, TRM은 HRM 대비 disentangled 구조라 ablation이 훨씬 쉬움
  arcprize HRM 블로그의 진짜 가치는 ablation 테스트의 중요성을 강조하는 데 있다고 생각함
  ARC-AGI는 모든 모델을 위한 챌린지로 기획된 것임
  LLM 정도 대규모 언어 모델의 추론력이 있어야 풀 수 있다고 가정했는데, 이게 오해였던 것 같음
  HRM과 TRM이 ARC-AGI 샘플의 소량 데이터셋으로 특화 훈련된 반면, LLM은 그렇지 않은가라는 점을 묻고 싶음
  아니면 어떤 차이점을 강조하는지 궁금함
“기본 Transformer”라기보다는 “recurrent 구조를 갖춘 Transformer 유사 아키텍처”임
이 방식은 여전히 재미있는 실험 주제임
분명 장점이 있지만, 실제로 더 나은 Transformer라고는 생각하지 않음
현재 받는 만큼의 과도한 주목은 좀 과한 느낌임
이번 내용을 보니 다시 한 번 Finite Impulse Response (FIR) 필터(기존 LLM)와 Infinite Impulse Response (IIR) 필터(재귀적 모델)와의 유사성이 떠오름
뛰어난 비유거나 독창적이진 않지만, FIR에서는 유사한 컷오프 특성을 얻으려면 IIR보다 훨씬 많은 계수가 필요함
예를 들어 window design method로 IIR을 FIR로 바꿀 수 있고, 그럴 경우 재귀 구조를 펼쳐서 유한 깊이에서 멈추게 됨
이와 비슷하게, TRM을 언롤링하면 전통적인 LLM 아키텍처에서 global feedback만 뺀 attention+ff block 반복 구조가 됨
게다가 TRM은 실제 IIR과 달리 유한한 컷오프를 구현하니 구조적으로는 FIR/LLM에 더 가깝다고 보임
TRM을 유사하게 펼친 구조와 비교해보는 것도 흥미로울 것 같음
다만, 잠 부족한 망상에서 나온 생각일 수도 있음
- Deep Equilibrium Models를 소개하고 싶음
  기존 딥 시퀀스 모델 대부분의 히든 레이어가 어떤 고정점으로 수렴한다는 관찰에서 출발해, 아예 root finding으로 고정점 자체를 찾는 방식임
  이 접근법은 무한 깊이(weight-tied) 피드포워드 네트워크를 돌리는 것과 동등하면서, 암시적 미분으로 역전파도 가능함
  (arxiv 논문 링크)
  Deep equilibrium 모델이 흥미로운 점은, 단 하나의 레이어로도 여러 레이어를 쌓은 딥 러닝 네트워크와 동등해질 수 있다는 부분임
  재귀성만 있으면 됨
  작업 난이도에 따라 반복 횟수를 스스로 조절함
HRM을 교육 목적으로 구현했고 경로 찾기에서 좋은 성능을 얻었음
이후 ablation 실험을 해보니 ARC-AGI 팀과 같은 결론(즉 HRM 아키텍처 자체는 별로 역할이 없음)에 도달함
좀 아쉬운 감정임
latent space reasoning에 뭔가 가능성이 있다고 생각함
구현 저장소
- 훌륭한 작업이라 생각함, 정리해서 공유해줘서 고마움
  복제와 경험 공유가 정말 중요함
arXiv 논문에서 밝혀진 결과가 실제로 확장 가능하다는 뜻인가 궁금함
이 결과가 실제 응용에도 통한다면 확실히 혁신적일 것 같음
한편, 만약 그렇다면 현재 AI 데이터센터 설비에 들어갈 천문학적 투자 금액이 한순간에 무의미해질 수도 있겠다는 재밌는 상상도 하게 됨
(물론 오래 가진 않겠지만)
- HRM 얘기를 할 땐 arcprize HRM 분석글은 꼭 참고해야 함
  이번 논문은 HRM을 단순화한 버전으로 보이고, 바로 이 분석글의 ablation 연구도 참고한 것 같음
  HRM은 일반 transformer LLM처럼 널리 적용 가능한 구조가 아니라는 점도 중요함
  아직 일반적 생성 AI 업무에는 HRM이 통했다는 증거 없음
  논문을 읽고 있지만, 이번 구조도 HRM과 비슷한 과제(ex. ARC-AGI 같은 공간 추론)에 적합하고, 더 범용적 아키텍처로 통합이 필요한 상황임
- 이 경우 제본스의 역설(Jevon’s paradox)가 적용된다고 생각함
  AI/전력 단가가 내려가면 수요가 더 올라감
- AI 버블이 AI 기술이 너무 좋아져서 효율이 극단적으로 올라가면 무너진다는 전개, 그럴듯함
- AI 데이터센터 설비투자가 무의미해질 수 있다는 말에 대해
  GPU 연산은 텍스트 추론용만이 아니고, 특히 비디오 생성 수요는 혁신이 생겨도 한동안 포화되기 힘들 것 같음
- 실제로 그런 성과가 나오면, 업계는 거의 즉각 이 방식을 도입해서 더 크고 강력한 모델을 훈련하는 쪽으로 나아갈 것임
“7M 파라미터로 TRM이 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 테스트 정확도를 획득, 이는 Deepseek R1, o3-mini, Gemini 2.5 Pro와 같은 대부분의 LLM보다 높고, 파라미터는 0.01% 미만”
정말 인상적임
참고로 구조적으로는 Jeff Hawkins의 “On Intelligence”에서 제안한 Hierarchical Temporal Memory와 비슷하게 느껴짐
(물론 sparsity 특성은 없지만, 계층적/시간적 요소는 유사함)
HTM 위키, Numenta
- sparsity가 없다는 점이 현재 LLM 방식의 아킬레스건일 수 있다는 생각임
요약
Hierarchical Reasoning Model(HRM)은 두 개의 작은 신경망을 서로 다른 주기로 재귀적으로 돌리는 참신한 접근임
생물학적 영감을 받아 만들어졌고, 작은 모델(27M 파라미터)과 작고 적은 데이터(1000개 내외)로 Sudoku, Maze, ARC-AGI 같은 어려운 퍼즐류에서 대형 LLM을 능가함
아직 완전히 이해된 구조는 아니고 성능이 최적은 아닐 수도 있음
우리는 훨씬 더 단순한 재귀적 추론 방식(TRM, Tiny Recursive Model)을 제안하고, 이 모델은 2 레이어 작은 네트워크로 HRM보다 훨씬 뛰어난 일반화 성능을 보임
단 7M 파라미터로 대형 LLM을 능가함(ARC-AGI-1 45%, ARC-AGI-2 8% 테스트 정확도, 파라미터는 0.01% 미만)
- 단 7M 파라미터로 대형 LLM을 능가한다는 결과는 상당히 매력적임
  다만 뭔가 숨겨진 한계가 있을 수도 있을 것 같아 궁금함
ARC 문제에서 recurrence의 효과가 좋은 결과를 내는 걸 보니 흥미로움
만약 recurrence에 관심이 있다면, 다른 문제에 이 모델을 적용한 아래 논문들도 참고하면 좋겠음
- Language modeling: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- 퍼즐 문제 해결: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- end-to-end 알고리즘 생성: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- 일반적 접근: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
전반적으로 transformer RNN 계열이 마음에 듦
본질적으로 EBM이 에너지 랜드스케이프를 배워서 해답으로 끌려 들어가는 구조임
discrete 문제를 점진적으로 convex하게 푸는 느낌임
neural cellular automata, flow matching/diffusion 등과 비슷한 점을 떠올리게 함
이 방식은 제어 문제에도 희망적임
상태 공간을 계속 굴러다니며 각 단계마다 유효한 액션만 고르는 식임
이거 neuralese Chain-of-Thought(CoT)랑 본질적으로 똑같지 않나 싶은 생각임
z/z_L을 reasoning embedding이라고 명시적으로 부르고 있고, 이게 재귀 과정을 거치며 변화하거나 유지되면서 출력 embedding(z_H/y)을 점점 다듬는 역할임
진짜 neuralese CoT/추론 체인 아닌가 싶음