GN⁺: A*를 넘어서: 트랜스포머를 활용한 더 나은 계획 수립
(arxiv.org)Beyond A*: 트랜스포머를 이용한 더 나은 계획 수립
- 트랜스포머 모델은 다양한 응용 분야에서 큰 진전을 이루었으나, 복잡한 의사결정 과제를 해결하는 데 있어서 전통적인 기호 기반 계획 수립 방법에 뒤처짐.
- 연구진은 트랜스포머를 훈련하여 복잡한 계획 과제를 해결하는 방법을 제시하고, Searchformer라는 모델을 개발하여 기존 A* 탐색보다 최대 26.8% 적은 탐색 단계를 사용하면서도 93.7%의 시간에 미리 보지 못한 Sokoban 퍼즐을 최적으로 해결함.
- Searchformer는 A* 탐색 동작을 예측하도록 훈련된 인코더-디코더 트랜스포머 모델로, 전문가 반복을 통해 미세 조정되어 A* 탐색보다 적은 탐색 단계를 수행하면서도 최적의 계획을 생성함.
훈련 방법과 성능
- 훈련 방법에서는 A*의 탐색 동작을 기호 계획 중 탐색 트리에 상태가 추가되고 제거되는 시점을 나타내는 토큰 시퀀스로 표현함.
- 미로 탐색에 대한 소거 연구에서 Searchformer는 최적 계획을 직접 예측하는 기준 모델을 크게 능가하며, 모델 크기는 5-10배 작고 훈련 데이터셋은 10배 작음.
- 연구진은 Searchformer가 Sokoban과 같은 더 크고 복잡한 의사결정 과제에 대해 해결 과제의 비율과 탐색 동작을 단축시키는 데 효과적임을 보임.
GN⁺의 의견
- 이 연구는 인공지능 분야에서 트랜스포머 모델의 새로운 활용 가능성을 보여줌. 복잡한 의사결정 과제를 해결하는 데 있어 기존의 기호 기반 방법보다 효율적인 접근 방식을 제시함으로써 AI의 응용 범위를 확장하는 중요한 발전임.
- Searchformer 모델은 더 적은 자원을 사용하여 더 빠르고 효율적인 문제 해결 능력을 보여줌. 이는 특히 자원이 제한적인 환경에서 AI를 구현할 때 큰 장점이 될 수 있음.
- 본 연구는 AI 기술의 발전이 단순히 더 많은 데이터와 더 큰 모델에 의존하지 않고도, 지능적인 방법론과 알고리즘의 개선을 통해 이루어질 수 있음을 시사함. 이는 AI 연구의 지속 가능성과 효율성 측면에서 매우 흥미롭고 유익한 접근법임.
Hacker News 의견
- 로봇 모션 계획을 위한 트랜스포머 사용에 대한 흥미로운 연구가 있음. 로봇 팔이 물체를 치지 않고 한 지점에서 다른 지점으로 이동하는 것은 매우 어려운 문제로, 이 문제는 고차원적이며 연속적임. 이전의 계획 방법들은 계산이 많이 들고 그다지 좋지 않았음. 이것이 로봇의 움직임이 '비자연스러워' 보이고 로봇이 우리가 원하는 많은 작업을 잘 수행하지 못하는 이유 중 하나임. 이 접근법은 다른 계획 방법들과 경쟁력이 있어 보이며, 더 빠른 최적 경로 계획을 제시함.
- 게임 그래프/경로 찾기를 위한 A* 알고리즘의 최적화 버전인 수정된 J* 알고리즘을 이 연구 경로를 시작하기 전에 시도했는지 궁금함. 관심 있는 사람을 위해 "Game AI Pro 2"에 관한 정보가 있음.
- 계획은 이미 그래프 검색, SAT-솔버, OR, Prolog 등과 같은 기존 기술로 잘 처리되고 있음. 문제는 보통 여러 실행 가능한 대안들 사이의 최적화인데, 트랜스포머가 이를 수행하기에 적합한지 의문임. LLM 기술의 역할은 자연어 설명을 실행 가능한 프로그램으로 변환하는 것에 더 가까워 보이며, Prolog는 결국 고전 NLP를 위해 설계되었으니 매우 가까움.
- 기계 번역은 복잡한 문법 해독과 검색을 포함했으나, 이제는 MT에 트랜스포머를 사용하며, 검색이 거의 필요하지 않은 훨씬 간단한 해독을 사용함. 현재 최고의 예측 모델을 사용하여 신경망 아키텍처 검색(NAS)을 위한 휴리스틱을 학습하고, 트랜스포머와 맘바보다 나은 새로운 신경 블록을 검색하는 '완전한 시작'에 도달할 수 있을지도 모름.
- "표준 A* 검색보다 26.8% 적은 검색 단계"라는 문구는 A*보다 약간 나은 성능을 보여주지만, Sokoban에서는 최신 기술(SOTA)에는 미치지 못함. 이 논문에서 인상적인 것은 무엇이며, 왜 해커뉴스에 올라왔는지 의문임.
- 트랜스포머가 계획을 수립할 수 있다면, AGI(인공 일반 지능)는 단지 더 나은 교육만 필요할 수도 있음.
- 청각 학습자를 위해 이 논문을 요약한 오디오북 형식이 제공됨.
- 이 논문은 어제 HN 홈페이지에 있던 Neural Network Diffusion 논문을 연상시킴. 이전 논문에서는 SGD 단계를 우회하는 모델을 훈련시켰고, 이 논문에서는 A* 탐색 단계를 우회함. 다른 한편으로, Sokoban을 위한 A*의 휴리스틱 선택이 좋지 않음. 논문을 읽는 동안 20분간 Sokoban을 플레이해보니, 진행을 위해 종종 목표 상태에서 상자를 멀리 이동해야 하므로 탐색 휴리스틱이 매우 부족함을 느낌.
- 딥러닝을 사용하여 이제 더 잘 수행되는 고전 알고리즘 또는 NP 완전 문제의 목록을 유지하고 있는 사람이 있는지 궁금함.
- A* 또는 Focal 검색과 같은 이산 알고리즘에서 학습된 휴리스틱 사용에 대해 매우 낙관적임. 대부분의 현대 이산 최적화 라이브러리에서는 CPLEX와 같이 성능을 설명하는 것은 휴리스틱과 튜닝임. 잘 이해되는 최적 검색 루틴을 대체하기 위한 종단 간 학습 접근법 사용에 대해서는 덜 이해하지만, 그것은 과도한 걱정일 수도 있음. 저자들이 그 기회를 놓쳤다고 생각됨.