# 사다리: 재귀적 문제 분해를 통한 자기 개선 LLMs

> Clean Markdown view of GeekNews topic #19624. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19624](https://news.hada.io/topic?id=19624)
- GeekNews Markdown: [https://news.hada.io/topic/19624.md](https://news.hada.io/topic/19624.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-08T09:47:33+09:00
- Updated: 2025-03-08T09:47:33+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2503.00735)
- Points: 1
- Comments: 1

## Topic Body

### LADDER: 자기 개선을 통한 LLM의 문제 해결 능력 향상

- **LADDER 소개**: LADDER는 복잡한 문제를 점진적으로 더 간단한 형태로 변형하여 대형 언어 모델(LLM)이 스스로 문제 해결 능력을 향상시키는 프레임워크임. 기존의 데이터셋이나 인간의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성함.

- **효과성**: LADDER는 수학적 적분 분야에서 Llama 3.2 3B의 정확도를 1%에서 82%로 향상시켰으며, Qwen2.5 7B Deepseek-R1 Distilled가 MIT Integration Bee 예선에서 73%를 달성하게 함.

- **TTRL 소개**: TTRL(Test-Time Reinforcement Learning)은 테스트 문제의 변형을 통해 추론 시 강화 학습을 수행하는 방법임. 이를 통해 Qwen2.5 7B Deepseek-R1 Distilled는 MIT Integration Bee 예선에서 90%의 최첨단 점수를 기록하며 OpenAI o1의 성능을 능가함.

- **결과의 중요성**: 이러한 결과는 자율적이고 전략적인 학습이 아키텍처 확장이나 인간 감독 없이도 상당한 능력 향상을 이룰 수 있음을 보여줌.

## Comments


### Comment 35572

- Author: neo
- Created: 2025-03-08T09:47:33+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43287821) 
- 이번 주에 무슨 일이 일어나고 있는지 궁금함. 최근 이틀 동안 머신러닝에서 흥미로운 돌파구를 여러 번 목격함
  - Google 연구팀이 디지털 논리 게이트를 매개로 NNs와 CLAs를 결합할 수 있다는 것을 발견함. 이를 통해 많은 비선형 문제를 간단하고 효율적인 디지털 회로로 줄일 수 있음
  - 신경망과 논리/지능 관련 새로운 발견들이 계속 나오고 있으며, 지능의 원리를 이해하는 데 얼마나 가까워졌는지에 대한 상상이 계속됨

- 유명한 수론 수학자 Hendrik Lenstra의 인용문이 떠오름
  - "해결할 수 없는 문제마다 해결할 수 없는 더 간단한 문제가 있다"는 말이 있음

- 그들의 테스트 시간 강화 학습 접근법이 약간 의심스러움
  - TTRL은 언어 모델이 테스트 케이스의 더 간단한 버전을 생성하도록 요청함으로써 작동함. 간단한 문제를 얻으면, 그 문제에 대해 강화 학습을 수행하여 원래 문제에 대한 모델 성능을 강화하려고 함
  - 문제는 간단한 문제를 검증하기 위해 수치 적분기를 사용한다는 것임. 거의 간단하지 않은 문제가 생성되고, 모델이 실제 테스트 케이스에 대해 훈련할 수 있는 시나리오를 상상할 수 있음. 이는 테스트 세트에서 훈련하는 것과 같음
  - 나머지 논문은 괜찮음

- LADDER의 수학적 적분 주제에서의 효과를 입증함. Llama 3.2 3B의 정확도를 1%에서 82%로 향상시킴
  - 이 방법이 작동한다는 것 자체가 흥미로움. 수학과 잘 작동한다는 점이 특히 흥미로움
  - 이 논문은 현재 훈련과 추론의 경계를 흐리는 움직임의 일부임. 그들의 방법 중 일부는 답을 모르는 질문을 더 간단한 질문으로 분해하고, 수치 '체커'를 사용하여 GRPO를 수행하는 것임. 이 강화된 모델은 더 많은 질문에 답할 수 있음
  - 인간도 이런 방식으로 많이 생각한다고 생각함. 어떤 것을 곰곰이 생각하고, 머릿속에서 돌리고, 비유하는 등. 테스트 시간 훈련을 추가하는 것은 고정된 추론에 대한 컨텍스트에 토큰을 추가하는 것보다 더 많은 생각을 할 수 있는 방법임
  - DeepSeek과 o1/o3가 추론 시간 토큰 생성 및 평가로 용량을 늘릴 수 있음을 보여주듯이, 추론 시간 자동화된 미세 조정으로도 용량을 늘릴 수 있을 것 같음
  - 이러한 기술이 확고해지면 이에 대해 새로운 방식으로 이야기하고 생각할 수 있기를 바람. 이들은 모두 어떤 수준에서 동일한 기본 프로세스의 일부임
  - 어쨌든 매우 멋짐

- Frank Herbert는 이를 알고 있었음. 이는 Dune에서 묘사된 멘타츠의 재귀적 자기 검사 구현임

- 테스트 시간 훈련/강화 학습은 미래의 수학 AI에 적합한 접근법임. 이는 주어진 문제에 대해 엄청난 양의 컴퓨팅을 사용하는 몇 안 되는 방법 중 하나일 가능성이 높음. Alphaproof가 이미 이를 수행했지만, 다시 수행되어 좋은 결과를 얻는 것이 좋음

- 주제에서 벗어나지만, 그들의 사이트가 아름다움. 금광을 찾은 것 같은 느낌임

- 어떤 이름들은 너무 매력적임

- 논문 끝부분에서 2025 MIT Integration Bee 예선 시험의 두 문제를 언급함. 시스템이 계속해서 잘못된 답을 냈다고 함
  - 그들은 이 질문들이 시험에서 가장 복잡한 질문 중 하나라고 말하지만, 첫 번째 질문은 단지
  - ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx를 계산하는 것임
  - 이는 1/3 + 1/(3*4) + 1/(3*4*5) + ...를 계산하는 것임. 매우 고급 수학은 아님