1P by GN⁺ 27일전 | ★ favorite | 댓글 1개

LADDER: 자기 개선을 통한 LLM의 문제 해결 능력 향상

  • LADDER 소개: LADDER는 복잡한 문제를 점진적으로 더 간단한 형태로 변형하여 대형 언어 모델(LLM)이 스스로 문제 해결 능력을 향상시키는 프레임워크임. 기존의 데이터셋이나 인간의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성함.

  • 효과성: LADDER는 수학적 적분 분야에서 Llama 3.2 3B의 정확도를 1%에서 82%로 향상시켰으며, Qwen2.5 7B Deepseek-R1 Distilled가 MIT Integration Bee 예선에서 73%를 달성하게 함.

  • TTRL 소개: TTRL(Test-Time Reinforcement Learning)은 테스트 문제의 변형을 통해 추론 시 강화 학습을 수행하는 방법임. 이를 통해 Qwen2.5 7B Deepseek-R1 Distilled는 MIT Integration Bee 예선에서 90%의 최첨단 점수를 기록하며 OpenAI o1의 성능을 능가함.

  • 결과의 중요성: 이러한 결과는 자율적이고 전략적인 학습이 아키텍처 확장이나 인간 감독 없이도 상당한 능력 향상을 이룰 수 있음을 보여줌.

Hacker News 의견
  • 이번 주에 무슨 일이 일어나고 있는지 궁금함. 최근 이틀 동안 머신러닝에서 흥미로운 돌파구를 여러 번 목격함

    • Google 연구팀이 디지털 논리 게이트를 매개로 NNs와 CLAs를 결합할 수 있다는 것을 발견함. 이를 통해 많은 비선형 문제를 간단하고 효율적인 디지털 회로로 줄일 수 있음
    • 신경망과 논리/지능 관련 새로운 발견들이 계속 나오고 있으며, 지능의 원리를 이해하는 데 얼마나 가까워졌는지에 대한 상상이 계속됨
  • 유명한 수론 수학자 Hendrik Lenstra의 인용문이 떠오름

    • "해결할 수 없는 문제마다 해결할 수 없는 더 간단한 문제가 있다"는 말이 있음
  • 그들의 테스트 시간 강화 학습 접근법이 약간 의심스러움

    • TTRL은 언어 모델이 테스트 케이스의 더 간단한 버전을 생성하도록 요청함으로써 작동함. 간단한 문제를 얻으면, 그 문제에 대해 강화 학습을 수행하여 원래 문제에 대한 모델 성능을 강화하려고 함
    • 문제는 간단한 문제를 검증하기 위해 수치 적분기를 사용한다는 것임. 거의 간단하지 않은 문제가 생성되고, 모델이 실제 테스트 케이스에 대해 훈련할 수 있는 시나리오를 상상할 수 있음. 이는 테스트 세트에서 훈련하는 것과 같음
    • 나머지 논문은 괜찮음
  • LADDER의 수학적 적분 주제에서의 효과를 입증함. Llama 3.2 3B의 정확도를 1%에서 82%로 향상시킴

    • 이 방법이 작동한다는 것 자체가 흥미로움. 수학과 잘 작동한다는 점이 특히 흥미로움
    • 이 논문은 현재 훈련과 추론의 경계를 흐리는 움직임의 일부임. 그들의 방법 중 일부는 답을 모르는 질문을 더 간단한 질문으로 분해하고, 수치 '체커'를 사용하여 GRPO를 수행하는 것임. 이 강화된 모델은 더 많은 질문에 답할 수 있음
    • 인간도 이런 방식으로 많이 생각한다고 생각함. 어떤 것을 곰곰이 생각하고, 머릿속에서 돌리고, 비유하는 등. 테스트 시간 훈련을 추가하는 것은 고정된 추론에 대한 컨텍스트에 토큰을 추가하는 것보다 더 많은 생각을 할 수 있는 방법임
    • DeepSeek과 o1/o3가 추론 시간 토큰 생성 및 평가로 용량을 늘릴 수 있음을 보여주듯이, 추론 시간 자동화된 미세 조정으로도 용량을 늘릴 수 있을 것 같음
    • 이러한 기술이 확고해지면 이에 대해 새로운 방식으로 이야기하고 생각할 수 있기를 바람. 이들은 모두 어떤 수준에서 동일한 기본 프로세스의 일부임
    • 어쨌든 매우 멋짐
  • Frank Herbert는 이를 알고 있었음. 이는 Dune에서 묘사된 멘타츠의 재귀적 자기 검사 구현임

  • 테스트 시간 훈련/강화 학습은 미래의 수학 AI에 적합한 접근법임. 이는 주어진 문제에 대해 엄청난 양의 컴퓨팅을 사용하는 몇 안 되는 방법 중 하나일 가능성이 높음. Alphaproof가 이미 이를 수행했지만, 다시 수행되어 좋은 결과를 얻는 것이 좋음

  • 주제에서 벗어나지만, 그들의 사이트가 아름다움. 금광을 찾은 것 같은 느낌임

  • 어떤 이름들은 너무 매력적임

  • 논문 끝부분에서 2025 MIT Integration Bee 예선 시험의 두 문제를 언급함. 시스템이 계속해서 잘못된 답을 냈다고 함

    • 그들은 이 질문들이 시험에서 가장 복잡한 질문 중 하나라고 말하지만, 첫 번째 질문은 단지
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx를 계산하는 것임
    • 이는 1/3 + 1/(34) + 1/(34*5) + ...를 계산하는 것임. 매우 고급 수학은 아님