계층적 추론 모델
(arxiv.org)- 계층적 추론 모델(Hierarchical Reasoning Model) 은 AI의 복잡한 목표 지향적 행동 실행 과정에서 기존 LLM 기반 Chain-of-Thought 기법의 한계(불안정한 작업 분해, 많은 데이터 요구, 지연 문제)를 극복함
- 인간 뇌의 계층적 처리 개념에서 영감을 받아, HRM은 고차원 추상 계획을 담당하는 고수준 모듈과 세부 연산을 빠르게 처리하는 저수준 모듈로 구성된 새로운 순환 구조를 도입함
- HRM은 약 2,700만 파라미터와 1,000개의 학습 샘플만으로도 고난이도 추론 문제에서 탁월한 성능을 보임
- 사전 학습, Chain-of-Thought 데이터 없이도 복잡한 스도쿠와 대형 미로 최적 경로 탐색 등에서 거의 완벽한 정확도를 달성함
- HRM은 기존 대형 모델 대비 높은 효율성과 성능을 보이며, 범용 컴퓨팅 및 일반 지능 시스템의 전환점 가능성을 보여줌
개요
AI 분야에서 추론(reasoning) 은 복잡한 목표 지향적 행동의 설계 및 실행 과정으로 중요한 과제임. 기존 대형 언어 모델(LLM)들은 주로 Chain-of-Thought(CoT) 기법을 사용하지만, 이는 취약한 작업 분해, 많은 데이터 요구, 높은 지연 문제 등 한계가 있음.
- 인간 두뇌의 계층적·다중 시계열 처리 구조에 착안해, Hierarchical Reasoning Model(HRM) 이 제안됨
- HRM은 두 개의 종속적 순환 모듈(고수준/저수준) 로 구성되어, 단일 순방향 패스에서 중간 과정의 명시적 감독 없이 순차적 추론을 수행함
- 2,700만 파라미터로 1000개 샘플만을 사용하여 최첨단 성능을 보여줌
기존 딥러닝·LLM의 구조적 한계
- 딥러닝은 네트워크 깊이를 쌓아서 표현력을 높이는 방식에서 출발했지만, 실제 Transformer 기반 LLM은 구조가 얕아 깊이의 한계가 있음
- 고정된 깊이의 Transformer는 복잡한 논리적 추론이나 알고리듬 문제에서 계산적 복잡도에 근본적 제약을 받음
- Chain-of-Thought는 인간이 직접 정의한 언어 기반의 단계적 분해에 의존해, 실수나 잘못된 순서로 인해 추론 전체가 쉽게 무너짐
- CoT는 많은 데이터와 토큰 생성, 느린 동작 문제도 발생시킴
HRM의 설계 원리
인간 뇌의 계층적·다중 시계열 처리를 모방하여 설계
- 계층적 처리: 뇌는 상위-하위 영역으로 정보를 계층적·시간적으로 별도로 처리함
- 시계열 분리: 상위 영역은 느리게, 하위 영역은 빠르게 동작해 효율적 지도를 가능하게 함
- 순환 연결: 반복적인 역피드백을 통해 내부 표현을 미세 조정하면서 깊은 추론을 실현함
HRM 모델 아키텍처
- 입력 네트워크, 저수준 순환 모듈, 고수준 순환 모듈, 출력 네트워크로 구성
- 입력은 벡터로 임베딩됨
- 저수준 모듈은 자신의 이전 상태·고수준의 현재 상태·입력에 기반하여 여러 차례 업데이트됨
- 고수준 모듈은 한 cycle이 끝날 때마다 저수준 모듈의 최종 상태를 받아 한 번만 업데이트됨
- 마지막에는 고수준 모듈의 상태로부터 예측값을 산출함
계층적 수렴(hierarchical convergence) 메커니즘
- 기존 RNN은 너무 빠르게 수렴해 추가 연산이 무의미해지는 문제가 있음
- HRM은 저수준 RNN이 cycle마다 국소적 평형점까지 안정적으로 수렴 후, 고수준 모듈이 새로운 컨텍스트를 제공해 저수준 모듈이 다시 시작하도록 함
- 계층적 수렴 구조 덕분에 깊은(많은 단계의) 연산이 가능하며, 수렴 속도도 적절히 제어됨
1-스텝 근사 기울기 학습
- BPTT(Backpropagation Through Time) 에 의존하면, 많은 단계의 상태를 저장해야 해 메모리 부담이 큼
- HRM은 고수준/저수준 모듈 각각에서 마지막 상태만으로 기울기를 근사해 학습함으로써, 메모리 사용량 O(1) 유지 및 생물학적으로 현실적 방식 구현이 가능함
- 수학적으로는 Deep Equilibrium Model(DEQ) 원리에 기반함
딥 슈퍼비전(deep supervision) & 적응형 계산 시간(ACT)
딥 슈퍼비전
- 주기적인 피드백을 제공하며 각 forward pass(segment)마다 출력을 산출하고, 각 segment의 학습 손실을 따로 계산함
- 다음 segment로 넘길 때 상태를 그래프에서 분리(detach)해 깊은 순환 구조의 안정성과 성능을 높임
적응형 계산 시간(ACT)
- 인간의 자동적·고의적 사고 전환 원리를 도입해, Q-learning으로 segment 반복 횟수를 학습 기반으로 동적으로 결정함
- Q-head가 각 segment마다 halt/continue 행동의 Q-value를 예측함
- Q-learning은 예측 정확도와 최적 종료 지점을 동시에 고려해 전체 손실을 계산함
성능 및 아키텍처 특징
-
Sudoku-Extreme(9x9), 큰 미로(30x30) 등에서 기존 CoT 방식 모델이 실패한 문제도 HRM은 약 1,000개 데이터로 거의 완벽하게 해결함
-
ARC-AGI(Abstraction and Reasoning Corpus) 벤치마크에서 27M 파라미터만으로 40.3% 성능 달성(CoT 기반 o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
-
인퍼런스 단계에서 계산량(steps)만 증가시켜 추가 성능 향상이 가능해, 아키텍처 추가 수정·재학습 필요 없이 계산 리소스 활용 가능함
-
HRM은 Transformer 기반의 sequence-to-sequence 구조를 내부적으로 활용하며,
- 임베딩층 뒤 저수준/고수준 모듈 모두 encoder-only Transformer 블록 사용
- 최신 LLM의 기능(Rotary Positional Encoding, Gated Linear Units, RMSNorm 등) 적용
- 파라미터는 truncated LeCun Normal 초기화 방식 사용, Adam-atan2 옵티마이저 + 일정 러닝레이트 활용
결론
- HRM은 생물학적으로 영감을 받은 계층적 순환 구조와 효율적·심층적 학습법으로, 적은 데이터와 적은 파라미터로도 기존 방식 대비 뛰어난 범용추론 능력을 입증함
- 딥러닝/LLM의 깊이 한계를 넘어선 범용 계산 및 지능 시스템으로의 발전 가능성을 보여주는 중요한 사례임
Hacker News 의견
-
초록과 도입부를 대충 훑어 보았을 때, 계층적 추론(HRM) 모델의 결과가 정말 놀랍게 보임
- 단 1,000개의 입력-출력 예시만을 사용하고 사전 학습이나 Chain-of-Thought(CoT) 지도 없이도, HRM이 지금까지의 최첨단 LLM들조차 감당 못하는 문제들을 풀어 낸다는 점이 인상적임
- 예를 들어, 복잡한 Sudoku(Extreme Full)와 30x30 미로 최적 경로 찾기에서 거의 완벽에 가까운 정확도를 기록함(CoT 방식은 여기서 0% 정확도에 머무름)
- Abstraction and Reasoning Corpus(ARC) AGI 챌린지에서도 HRM이 27M 파라미터, 30x30 그리드(900 토큰)로 40.3% 성능을 달성, 훨씬 큰 모델들(o3-mini-high, Claude 3.7 8K 등)을 능가함
- 이 논문은 꼼꼼히 읽어 볼 생각임
-
27M 파라미터 모델이 '처음부터' 1,000개 데이터 포인트만으로 학습된다는 점이 매우 의심스러움
- 또한, 왜 동일한 조건(동일 데이터 준비)에서 훈련된 다른 모델들과 비교하지 않는지 이해할 수 없음
- 반면 그들은 범용적인 외부 LLM들과만 비교하고 있는데, LLM의 경우 그 1,000개의 예제를 훈련에 사용한 적 없을 수도 있음
- 이런 접근은 왠지 과적합(overfit) 느낌이 남
-
맞음!
- HRM은 상호 의존적인 두 개의 순환 모듈(상위 모듈: 추상적·느린 계획, 하위 모듈: 빠르고 세부적인 연산)을 활용
- 이 구조 덕분에 HRM은 적은 파라미터(2,700만)와 작은 데이터셋(~1,000 예시)만으로도 깊이 있는 계산력을 갖춤
- HRM은 난이도 높은 벤치마크(Extreme Sudoku, Maze-Hard, ARC-AGI)에서 최신 CoT 모델들을 넘어섬
- 예시로, Sudoku 96% 정확도, ARC-AGI-2에서는 40.3%의 성능으로 Claude 3.7, DeepSeek R1 등 대형 모델도 앞섬
- 어떻게 이런 결과가 나오는지 설명이 필요함... 직접 컴퓨터로 실행해 봐야겠음
-
"T 단계가 끝난 뒤 상위 모듈(H모듈)이 하위 모듈의 결과 상태를 받아 업데이트를 진행, 이때 하위 모듈의 계산 경로를 새로 시작시키며 새로운 수렴 단계를 유도"
- 하위 RNN이 계산을 끝내면 상위 모듈이 결과를 평가해서, 하위 RNN에 새로운 컨텍스트를 부여하고 루프를 반복
- 하위 RNN은 반복적으로 역전파(backpropagation) 학습 수행하고, 상위 모듈이 주기적으로 개입해서 더 좋은 출력이 나올 때까지 조정해 주는 구조임
- "뇌 과학적 증거에 따르면 이러한 인지 모드는 전전두엽, 디폴트 모드 네트워크 등 같은 신경 회로를 공유하고 있음. 즉, 뇌는 과업 복잡성과 보상 가능성에 따라 이 회로의 '실행 시간'을 동적으로 조절함"
- 저자들은 이런 뇌의 메커니즘에서 영감을 받은 '적응적 중단(adaptive halting) 전략'을 HRM에 도입, 즉 '빠르게/느리게 생각하기' 전략 적용
- 즉, 과제 난이도와 주어진 데이터에 따라 계산 자원 사용량을 자동 조절하는 스케줄러임
- 논문 곳곳에서 실제 뇌와의 유사점을 인용하는 점이 정말 마음에 듦
- AGI는 이런 원시적인 프리미티브들을 극단적 복잡성으로 조합하고, 협력·경쟁·의사소통·동시성·특화된 수많은 '모듈'을 활용해야 가능하다고 생각함
- 인간의 뇌 또한 이런 방식이어야 진화적으로 인지 기능을 달성할 수 있었을 것임; 느리고 저전력인 생물학적 조직으로는 이게 유일한 해법임을 깨달음
-
hlm/llm 구조 분할 얘기를 읽자마자 인간 뇌 구조가 연상되었음
-
회의적 관점이 필요하다고 이야기함
- 특히 역전파를 우회하는 아이디어 등 매우 흥미롭기는 함
- 다만 아직 동료 평가(peer review)를 거치지 않은 것으로 보이며, 결과 섹션도 평가 방법이 구체적이지 않고 수치 정보가 메인 그림에만 있음
- Benchmarks(ARC2) 리더보드와 실제 수치도 다름(현재 상위권은 19%인데 HRM은 5% 수준임)
- https://www.kaggle.com/competitions/arc-prize-2025/leaderboard에서 직접 확인 가능함
-
저자들의 코드가 https://github.com/sapientinc/HRM에 공개되어 있음
- AI/ML 분야에서는 동작 가능한 코드가 동반된 프리프린트 논문을 공식 동료 평가 논문보다 훨씬 더 가치 있게 여김
- 프리프린트는 누구나 검증·재현 가능하고, 반면 표준 peer review는 극소수의 바쁜(심지어 제대로 보수도 못 받는) 심사자에 의존함
- 저자 주장대로라면 결국 자연스럽게 인정 받게 되고, 반대라면 잊힐 것임
- 실질적으로는 오픈소스식 분산·글로벌 검증임; 엉성할 수는 있으나 기존의 전통적 논문 심사보다 훨씬 효과적임
-
머신러닝 논문에서는 건강한 회의적 시각이 필수임
- 논문이 많아지면서 전통적 동료 평가가 무력화됨
- 리뷰어들이 실제로는 담당 분야 전문성이 부족하거나 학생인 경우도 많음
- 실제 peer review는 아카이브(arXiv) 등에서 다른 전문가들이 구현 후 결과를 독립적으로 재현하고 후속 논문에서 인용하는 과정임
- 이 댓글 스레드 자체가 실제 peer review임
-
재현 실험 및 결과 비교로 회의적 검증을 하는 것이 최선이라고 생각함
- 다음 달 10일간 휴가가 있는데, 소스 코드와 데이터셋 등 저자들이 뭘 공개했는지 살펴보고 직접 재현해 볼 계획임
-
아직 동료 평가가 이루어지지 않았다는 것 만으로 평가를 내리기는 섣부른 태도임
- mamba1, mamba2 논문도 처음엔 peer review를 거치지 않았음
- 그러나 강한 주장에는 강한 증거가 필요하다는 점에 동의하고, 현재 직접 로컬에서 결과 재현 시도 중임
-
방금 논문이 출판된 상황에서 peer review까지 기대하는 것은 프로세스를 잘 몰라서 그렇다고 느껴짐
- 연구를 peer review에 올리려면 우선 '출판'부터 하는 게 순서임
-
나는 인지심리학자로서, 대체로 이런 AI 방향성이 필요하다고 오래전부터 생각해 왔음
- Fuzzy Trace Theory(퍼지 트레이스 이론) 참고[1]; 기억은 단어 단위(상세)부터 요약(gist)까지 다양한 수준의 표상을 만들어 결합·인출하는 구조임
- 요약적 표상+세부 정보 결합이 강력한 일반화나 유연한 회상 경로를 가능하게 만듦
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
-
내 이해가 맞다면, HRM은 1,000개의 Sudoku (퍼즐, 해법) 쌍을 보고 자체적으로 규칙을 학습함
-
그 다음 본 적 없는 새로운 퍼즐을 55% 정확도로 풀 수 있음
-
백만 개 예시로 훈련시키면 거의 완벽에 가까워짐
-
사전 학습이 전혀 없다는 점에서 놀라움
-
반면 AlphaZero는 규칙(체스·바둑)을 내장하고 전략만 학습하지만, HRM은 규칙까지 직접 배움
-
직접 GitHub 저장소에서 확인해 볼 계획임
-
AlphaZero는 규칙을 내장하지만, MuZero 및 후속 모델들은 규칙 내장 없이 동작함
- MuZero는 AlphaZero를 뛰어넘는 성능, EfficientZero는 학습량까지 줄임
- Atari 게임 등 다양한 환경에서 뛰어남
-
직접 소스코드로 실험해 본 결과:
- 과학적 재현 가능성을 위해 꼭 라이브러리 버전을 명시해 달라고 요청하고 싶음(pyproject.toml이 더 좋음)
- 1,000개 Sudoku 예시는 실제로는 손수 코딩된 퍼뮤테이션 알고리즘으로 데이터 확장되어, 실질적으로 백만 개 정도의 데이터셋임
(실제로 1,000개가 아님)
-
-
HRM 모델이 MoE(Mixture of Experts)와 곧 결합될지 기대/약간 두려움
-
LLM을 더 강력하게 만들려는 경제적 압박이 매우 크기 때문에, 이런 결합은 일 개월 안에도 가능할 것으로 생각함
-
논문은 sudoku 풀이 등 퍼즐 문제만 다루고, 질의응답이나 LLM 주요 응용 분야는 다루지 않음
-
차세대 LLM과의 결합을 논의하지 않은 점이 아쉬움
-
MoE는 개념 클러스터와 관련이 있으나, 앞으로는 개념의 깊이·계층수·학습 시간 등도 잠재 공간(latent space)에 포함해야 하며, 이는 우리가 수학책을 읽을 때와 짧은 기사를 읽을 때 읽는 방식이 달라지는 것과 유사함
-
HRM은 적은 수의 규칙이 복합적으로 얽히는 퍼즐에 맞춰 설계된 것임
- 규칙이 적으니 작은 모델로도 학습할 수 있고, 모델이 소형이니 반복적으로 여러 번 돌려 모든 상호작용을 처리 가능함
- 언어 모델링은 수많은 문구와 그 관계를 저장해야 하므로 비슷하게 작은 모델로는 어렵다고 생각함
- 다행히 언어 쪽에서는 대체로 연산 단계를 몇 번만 거쳐도 쓸만한 결과가 나옴
- LLM만큼 큰 모델을 HRM 방식으로 반복 루프에 태우면 속도가 너무 느려 실제 적용은 어려움
- LLM 본체 + 소형 HRM을 결합해 제약 충족 과제만 따로 처리할 수는 있지 않을까 상상할 수 있음
-
주로 Sudoku 외의 다른 응용이나 한계점 논의가 없다는 점에서 나 역시 약간 의구심을 가짐
-
-
논문을 훑어보니, MoE LLM 시스템(오토리그레시브, 확산, 에너지 기반 등 어떤 방식이든) 역시 HRM 구조로 계층 중첩이 가능함
- 이를 조합하여 효율성과 품질에 대한 새로운 벤치마크도 만들어 볼 수 있으리라 생각함
-
신경과학적 영감을 기반으로 한 점을 높이 평가하며, 논문 전반에 특별히 문제 될 내용은 없어 보임
-
직접 복제 실험까지 하진 않았지만, 저자들이 만든 건 적게는 범용적일 수도 있는 constraint-satisfaction(제약 충족) 문제 풀이기임
-
적은 예시만 보고 제약 규칙까지 배우는 시스템이고, 사실이라면 이것만으로 충분히 흥미로움
-
다만 CoT 모델과의 직접 비교가 그리 설득력 있게 느껴지진 않음
-
CoT 모델은 원칙적으로 어떤 복잡한 문제든 풀 수 있지만, HRM은 특화된 퍼즐마다 따로 훈련이 필요하고 범용성 주장은 어려움
-
예를 들어 체스 엔진 Stockfish가 LLM보다 체스를 잘한다고 해서 Stockfish가 더 '지능적'이라고 볼 순 없다는 느낌
-
좋은 아이디어이지만 논문에서 마케팅 과장이 살짝 느껴졌음
-
동의함! 사실 이것 자체만으로도 엄청난 성과임
- 첨예한 hype를 견제할 필요는 있지만, 이 작은 모델로 이런 결과를 얻은 건 놀라움
- 특정 문제엔 커스텀 모델이 효율도 높고 신뢰도도 크므로, 범용이라는 이름 하에 비효율 구조를 강요할 필요 없음
-
CoT 모델이 본질적으로 어떤 복잡한 작업도 풀 수 있다고 했는데, 그 근거가 궁금함
- 수학적 증거가 있는지도 의문임
- 개인적으로는 CoT 자체가 현 LLM의 한계를 우회하는 일종의 꼼수라고 생각함
-
-
이 논문이 사실이라면 그 영향이 매우 클 것이므로 계속 예의주시하고 있음
- 기본 컨셉은 합리적으로 들리지만, 3자 검증이 나오기 전까지 조심스럽게 지켜볼 생각임
- 직접 실무에서 확인해보고 싶은 마음임