계층적 추론 모델

(arxiv.org)

계층적 추론 모델(Hierarchical Reasoning Model) 은 AI의 복잡한 목표 지향적 행동 실행 과정에서 기존 LLM 기반 Chain-of-Thought 기법의 한계(불안정한 작업 분해, 많은 데이터 요구, 지연 문제)를 극복함
인간 뇌의 계층적 처리 개념에서 영감을 받아, HRM은 고차원 추상 계획을 담당하는 고수준 모듈과 세부 연산을 빠르게 처리하는 저수준 모듈로 구성된 새로운 순환 구조를 도입함
HRM은 약 2,700만 파라미터와 1,000개의 학습 샘플만으로도 고난이도 추론 문제에서 탁월한 성능을 보임
사전 학습, Chain-of-Thought 데이터 없이도 복잡한 스도쿠와 대형 미로 최적 경로 탐색 등에서 거의 완벽한 정확도를 달성함
HRM은 기존 대형 모델 대비 높은 효율성과 성능을 보이며, 범용 컴퓨팅 및 일반 지능 시스템의 전환점 가능성을 보여줌

개요

AI 분야에서 추론(reasoning) 은 복잡한 목표 지향적 행동의 설계 및 실행 과정으로 중요한 과제임. 기존 대형 언어 모델(LLM)들은 주로 Chain-of-Thought(CoT) 기법을 사용하지만, 이는 취약한 작업 분해, 많은 데이터 요구, 높은 지연 문제 등 한계가 있음.

인간 두뇌의 계층적·다중 시계열 처리 구조에 착안해, Hierarchical Reasoning Model(HRM) 이 제안됨
HRM은 두 개의 종속적 순환 모듈(고수준/저수준) 로 구성되어, 단일 순방향 패스에서 중간 과정의 명시적 감독 없이 순차적 추론을 수행함
2,700만 파라미터로 1000개 샘플만을 사용하여 최첨단 성능을 보여줌

기존 딥러닝·LLM의 구조적 한계

딥러닝은 네트워크 깊이를 쌓아서 표현력을 높이는 방식에서 출발했지만, 실제 Transformer 기반 LLM은 구조가 얕아 깊이의 한계가 있음
고정된 깊이의 Transformer는 복잡한 논리적 추론이나 알고리듬 문제에서 계산적 복잡도에 근본적 제약을 받음
Chain-of-Thought는 인간이 직접 정의한 언어 기반의 단계적 분해에 의존해, 실수나 잘못된 순서로 인해 추론 전체가 쉽게 무너짐
CoT는 많은 데이터와 토큰 생성, 느린 동작 문제도 발생시킴

HRM의 설계 원리

인간 뇌의 계층적·다중 시계열 처리를 모방하여 설계

계층적 처리: 뇌는 상위-하위 영역으로 정보를 계층적·시간적으로 별도로 처리함
시계열 분리: 상위 영역은 느리게, 하위 영역은 빠르게 동작해 효율적 지도를 가능하게 함
순환 연결: 반복적인 역피드백을 통해 내부 표현을 미세 조정하면서 깊은 추론을 실현함

HRM 모델 아키텍처

입력 네트워크, 저수준 순환 모듈, 고수준 순환 모듈, 출력 네트워크로 구성
입력은 벡터로 임베딩됨
저수준 모듈은 자신의 이전 상태·고수준의 현재 상태·입력에 기반하여 여러 차례 업데이트됨
고수준 모듈은 한 cycle이 끝날 때마다 저수준 모듈의 최종 상태를 받아 한 번만 업데이트됨
마지막에는 고수준 모듈의 상태로부터 예측값을 산출함

계층적 수렴(hierarchical convergence) 메커니즘

기존 RNN은 너무 빠르게 수렴해 추가 연산이 무의미해지는 문제가 있음
HRM은 저수준 RNN이 cycle마다 국소적 평형점까지 안정적으로 수렴 후, 고수준 모듈이 새로운 컨텍스트를 제공해 저수준 모듈이 다시 시작하도록 함
계층적 수렴 구조 덕분에 깊은(많은 단계의) 연산이 가능하며, 수렴 속도도 적절히 제어됨

1-스텝 근사 기울기 학습

BPTT(Backpropagation Through Time) 에 의존하면, 많은 단계의 상태를 저장해야 해 메모리 부담이 큼
HRM은 고수준/저수준 모듈 각각에서 마지막 상태만으로 기울기를 근사해 학습함으로써, 메모리 사용량 O(1) 유지 및 생물학적으로 현실적 방식 구현이 가능함
수학적으로는 Deep Equilibrium Model(DEQ) 원리에 기반함

딥 슈퍼비전(deep supervision) & 적응형 계산 시간(ACT)

딥 슈퍼비전

주기적인 피드백을 제공하며 각 forward pass(segment)마다 출력을 산출하고, 각 segment의 학습 손실을 따로 계산함
다음 segment로 넘길 때 상태를 그래프에서 분리(detach)해 깊은 순환 구조의 안정성과 성능을 높임

적응형 계산 시간(ACT)

인간의 자동적·고의적 사고 전환 원리를 도입해, Q-learning으로 segment 반복 횟수를 학습 기반으로 동적으로 결정함
Q-head가 각 segment마다 halt/continue 행동의 Q-value를 예측함
Q-learning은 예측 정확도와 최적 종료 지점을 동시에 고려해 전체 손실을 계산함

성능 및 아키텍처 특징

Sudoku-Extreme(9x9), 큰 미로(30x30) 등에서 기존 CoT 방식 모델이 실패한 문제도 HRM은 약 1,000개 데이터로 거의 완벽하게 해결함
ARC-AGI(Abstraction and Reasoning Corpus) 벤치마크에서 27M 파라미터만으로 40.3% 성능 달성(CoT 기반 o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
인퍼런스 단계에서 계산량(steps)만 증가시켜 추가 성능 향상이 가능해, 아키텍처 추가 수정·재학습 필요 없이 계산 리소스 활용 가능함
HRM은 Transformer 기반의 sequence-to-sequence 구조를 내부적으로 활용하며,
- 임베딩층 뒤 저수준/고수준 모듈 모두 encoder-only Transformer 블록 사용
- 최신 LLM의 기능(Rotary Positional Encoding, Gated Linear Units, RMSNorm 등) 적용
- 파라미터는 truncated LeCun Normal 초기화 방식 사용, Adam-atan2 옵티마이저 + 일정 러닝레이트 활용

결론

HRM은 생물학적으로 영감을 받은 계층적 순환 구조와 효율적·심층적 학습법으로, 적은 데이터와 적은 파라미터로도 기존 방식 대비 뛰어난 범용추론 능력을 입증함
딥러닝/LLM의 깊이 한계를 넘어선 범용 계산 및 지능 시스템으로의 발전 가능성을 보여주는 중요한 사례임

▲

GN⁺ 3달전 [-]

Hacker News 의견

초록과 도입부를 대충 훑어 보았을 때, 계층적 추론(HRM) 모델의 결과가 정말 놀랍게 보임
- 단 1,000개의 입력-출력 예시만을 사용하고 사전 학습이나 Chain-of-Thought(CoT) 지도 없이도, HRM이 지금까지의 최첨단 LLM들조차 감당 못하는 문제들을 풀어 낸다는 점이 인상적임
- 예를 들어, 복잡한 Sudoku(Extreme Full)와 30x30 미로 최적 경로 찾기에서 거의 완벽에 가까운 정확도를 기록함(CoT 방식은 여기서 0% 정확도에 머무름)
- Abstraction and Reasoning Corpus(ARC) AGI 챌린지에서도 HRM이 27M 파라미터, 30x30 그리드(900 토큰)로 40.3% 성능을 달성, 훨씬 큰 모델들(o3-mini-high, Claude 3.7 8K 등)을 능가함
- 이 논문은 꼼꼼히 읽어 볼 생각임
27M 파라미터 모델이 '처음부터' 1,000개 데이터 포인트만으로 학습된다는 점이 매우 의심스러움
- 또한, 왜 동일한 조건(동일 데이터 준비)에서 훈련된 다른 모델들과 비교하지 않는지 이해할 수 없음
- 반면 그들은 범용적인 외부 LLM들과만 비교하고 있는데, LLM의 경우 그 1,000개의 예제를 훈련에 사용한 적 없을 수도 있음
- 이런 접근은 왠지 과적합(overfit) 느낌이 남
맞음!
- HRM은 상호 의존적인 두 개의 순환 모듈(상위 모듈: 추상적·느린 계획, 하위 모듈: 빠르고 세부적인 연산)을 활용
- 이 구조 덕분에 HRM은 적은 파라미터(2,700만)와 작은 데이터셋(~1,000 예시)만으로도 깊이 있는 계산력을 갖춤
- HRM은 난이도 높은 벤치마크(Extreme Sudoku, Maze-Hard, ARC-AGI)에서 최신 CoT 모델들을 넘어섬
- 예시로, Sudoku 96% 정확도, ARC-AGI-2에서는 40.3%의 성능으로 Claude 3.7, DeepSeek R1 등 대형 모델도 앞섬
- 어떻게 이런 결과가 나오는지 설명이 필요함... 직접 컴퓨터로 실행해 봐야겠음
"T 단계가 끝난 뒤 상위 모듈(H모듈)이 하위 모듈의 결과 상태를 받아 업데이트를 진행, 이때 하위 모듈의 계산 경로를 새로 시작시키며 새로운 수렴 단계를 유도"
- 하위 RNN이 계산을 끝내면 상위 모듈이 결과를 평가해서, 하위 RNN에 새로운 컨텍스트를 부여하고 루프를 반복
- 하위 RNN은 반복적으로 역전파(backpropagation) 학습 수행하고, 상위 모듈이 주기적으로 개입해서 더 좋은 출력이 나올 때까지 조정해 주는 구조임
- "뇌 과학적 증거에 따르면 이러한 인지 모드는 전전두엽, 디폴트 모드 네트워크 등 같은 신경 회로를 공유하고 있음. 즉, 뇌는 과업 복잡성과 보상 가능성에 따라 이 회로의 '실행 시간'을 동적으로 조절함"
- 저자들은 이런 뇌의 메커니즘에서 영감을 받은 '적응적 중단(adaptive halting) 전략'을 HRM에 도입, 즉 '빠르게/느리게 생각하기' 전략 적용
- 즉, 과제 난이도와 주어진 데이터에 따라 계산 자원 사용량을 자동 조절하는 스케줄러임
- 논문 곳곳에서 실제 뇌와의 유사점을 인용하는 점이 정말 마음에 듦
- AGI는 이런 원시적인 프리미티브들을 극단적 복잡성으로 조합하고, 협력·경쟁·의사소통·동시성·특화된 수많은 '모듈'을 활용해야 가능하다고 생각함
- 인간의 뇌 또한 이런 방식이어야 진화적으로 인지 기능을 달성할 수 있었을 것임; 느리고 저전력인 생물학적 조직으로는 이게 유일한 해법임을 깨달음
hlm/llm 구조 분할 얘기를 읽자마자 인간 뇌 구조가 연상되었음
회의적 관점이 필요하다고 이야기함
- 특히 역전파를 우회하는 아이디어 등 매우 흥미롭기는 함
- 다만 아직 동료 평가(peer review)를 거치지 않은 것으로 보이며, 결과 섹션도 평가 방법이 구체적이지 않고 수치 정보가 메인 그림에만 있음
- Benchmarks(ARC2) 리더보드와 실제 수치도 다름(현재 상위권은 19%인데 HRM은 5% 수준임)
- https://www.kaggle.com/competitions/arc-prize-2025/leaderboard에서 직접 확인 가능함
저자들의 코드가 https://github.com/sapientinc/HRM에 공개되어 있음
- AI/ML 분야에서는 동작 가능한 코드가 동반된 프리프린트 논문을 공식 동료 평가 논문보다 훨씬 더 가치 있게 여김
- 프리프린트는 누구나 검증·재현 가능하고, 반면 표준 peer review는 극소수의 바쁜(심지어 제대로 보수도 못 받는) 심사자에 의존함
- 저자 주장대로라면 결국 자연스럽게 인정 받게 되고, 반대라면 잊힐 것임
- 실질적으로는 오픈소스식 분산·글로벌 검증임; 엉성할 수는 있으나 기존의 전통적 논문 심사보다 훨씬 효과적임
머신러닝 논문에서는 건강한 회의적 시각이 필수임
- 논문이 많아지면서 전통적 동료 평가가 무력화됨
- 리뷰어들이 실제로는 담당 분야 전문성이 부족하거나 학생인 경우도 많음
- 실제 peer review는 아카이브(arXiv) 등에서 다른 전문가들이 구현 후 결과를 독립적으로 재현하고 후속 논문에서 인용하는 과정임
- 이 댓글 스레드 자체가 실제 peer review임
재현 실험 및 결과 비교로 회의적 검증을 하는 것이 최선이라고 생각함
- 다음 달 10일간 휴가가 있는데, 소스 코드와 데이터셋 등 저자들이 뭘 공개했는지 살펴보고 직접 재현해 볼 계획임
아직 동료 평가가 이루어지지 않았다는 것 만으로 평가를 내리기는 섣부른 태도임
- mamba1, mamba2 논문도 처음엔 peer review를 거치지 않았음
- 그러나 강한 주장에는 강한 증거가 필요하다는 점에 동의하고, 현재 직접 로컬에서 결과 재현 시도 중임
방금 논문이 출판된 상황에서 peer review까지 기대하는 것은 프로세스를 잘 몰라서 그렇다고 느껴짐
- 연구를 peer review에 올리려면 우선 '출판'부터 하는 게 순서임
나는 인지심리학자로서, 대체로 이런 AI 방향성이 필요하다고 오래전부터 생각해 왔음
- Fuzzy Trace Theory(퍼지 트레이스 이론) 참고[1]; 기억은 단어 단위(상세)부터 요약(gist)까지 다양한 수준의 표상을 만들어 결합·인출하는 구조임
- 요약적 표상+세부 정보 결합이 강력한 일반화나 유연한 회상 경로를 가능하게 만듦
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
내 이해가 맞다면, HRM은 1,000개의 Sudoku (퍼즐, 해법) 쌍을 보고 자체적으로 규칙을 학습함
- 그 다음 본 적 없는 새로운 퍼즐을 55% 정확도로 풀 수 있음
- 백만 개 예시로 훈련시키면 거의 완벽에 가까워짐
- 사전 학습이 전혀 없다는 점에서 놀라움
- 반면 AlphaZero는 규칙(체스·바둑)을 내장하고 전략만 학습하지만, HRM은 규칙까지 직접 배움
- 직접 GitHub 저장소에서 확인해 볼 계획임
- AlphaZero는 규칙을 내장하지만, MuZero 및 후속 모델들은 규칙 내장 없이 동작함
  - MuZero는 AlphaZero를 뛰어넘는 성능, EfficientZero는 학습량까지 줄임
  - Atari 게임 등 다양한 환경에서 뛰어남
- 직접 소스코드로 실험해 본 결과:
  - 과학적 재현 가능성을 위해 꼭 라이브러리 버전을 명시해 달라고 요청하고 싶음(pyproject.toml이 더 좋음)
  - 1,000개 Sudoku 예시는 실제로는 손수 코딩된 퍼뮤테이션 알고리즘으로 데이터 확장되어, 실질적으로 백만 개 정도의 데이터셋임
    (실제로 1,000개가 아님)
HRM 모델이 MoE(Mixture of Experts)와 곧 결합될지 기대/약간 두려움
- LLM을 더 강력하게 만들려는 경제적 압박이 매우 크기 때문에, 이런 결합은 일 개월 안에도 가능할 것으로 생각함
- 논문은 sudoku 풀이 등 퍼즐 문제만 다루고, 질의응답이나 LLM 주요 응용 분야는 다루지 않음
- 차세대 LLM과의 결합을 논의하지 않은 점이 아쉬움
- MoE는 개념 클러스터와 관련이 있으나, 앞으로는 개념의 깊이·계층수·학습 시간 등도 잠재 공간(latent space)에 포함해야 하며, 이는 우리가 수학책을 읽을 때와 짧은 기사를 읽을 때 읽는 방식이 달라지는 것과 유사함
- HRM은 적은 수의 규칙이 복합적으로 얽히는 퍼즐에 맞춰 설계된 것임
  - 규칙이 적으니 작은 모델로도 학습할 수 있고, 모델이 소형이니 반복적으로 여러 번 돌려 모든 상호작용을 처리 가능함
  - 언어 모델링은 수많은 문구와 그 관계를 저장해야 하므로 비슷하게 작은 모델로는 어렵다고 생각함
  - 다행히 언어 쪽에서는 대체로 연산 단계를 몇 번만 거쳐도 쓸만한 결과가 나옴
  - LLM만큼 큰 모델을 HRM 방식으로 반복 루프에 태우면 속도가 너무 느려 실제 적용은 어려움
  - LLM 본체 + 소형 HRM을 결합해 제약 충족 과제만 따로 처리할 수는 있지 않을까 상상할 수 있음
- 주로 Sudoku 외의 다른 응용이나 한계점 논의가 없다는 점에서 나 역시 약간 의구심을 가짐
논문을 훑어보니, MoE LLM 시스템(오토리그레시브, 확산, 에너지 기반 등 어떤 방식이든) 역시 HRM 구조로 계층 중첩이 가능함
- 이를 조합하여 효율성과 품질에 대한 새로운 벤치마크도 만들어 볼 수 있으리라 생각함
신경과학적 영감을 기반으로 한 점을 높이 평가하며, 논문 전반에 특별히 문제 될 내용은 없어 보임
- 직접 복제 실험까지 하진 않았지만, 저자들이 만든 건 적게는 범용적일 수도 있는 constraint-satisfaction(제약 충족) 문제 풀이기임
- 적은 예시만 보고 제약 규칙까지 배우는 시스템이고, 사실이라면 이것만으로 충분히 흥미로움
- 다만 CoT 모델과의 직접 비교가 그리 설득력 있게 느껴지진 않음
- CoT 모델은 원칙적으로 어떤 복잡한 문제든 풀 수 있지만, HRM은 특화된 퍼즐마다 따로 훈련이 필요하고 범용성 주장은 어려움
- 예를 들어 체스 엔진 Stockfish가 LLM보다 체스를 잘한다고 해서 Stockfish가 더 '지능적'이라고 볼 순 없다는 느낌
- 좋은 아이디어이지만 논문에서 마케팅 과장이 살짝 느껴졌음
- 동의함! 사실 이것 자체만으로도 엄청난 성과임
  - 첨예한 hype를 견제할 필요는 있지만, 이 작은 모델로 이런 결과를 얻은 건 놀라움
  - 특정 문제엔 커스텀 모델이 효율도 높고 신뢰도도 크므로, 범용이라는 이름 하에 비효율 구조를 강요할 필요 없음
- CoT 모델이 본질적으로 어떤 복잡한 작업도 풀 수 있다고 했는데, 그 근거가 궁금함
  - 수학적 증거가 있는지도 의문임
  - 개인적으로는 CoT 자체가 현 LLM의 한계를 우회하는 일종의 꼼수라고 생각함
이 논문이 사실이라면 그 영향이 매우 클 것이므로 계속 예의주시하고 있음
- 기본 컨셉은 합리적으로 들리지만, 3자 검증이 나오기 전까지 조심스럽게 지켜볼 생각임
- 직접 실무에서 확인해보고 싶은 마음임

답변달기