Quiet-STaR: 언어 모델이 말하기 전에 스스로 생각하는 법을 가르칠 수 있음

(arxiv.org)

2P by GN⁺ 2024-03-17 | ★ favorite | 댓글 1개

Quiet-STaR: 언어 모델이 말하기 전에 생각을 가르칠 수 있음

사람들은 글을 쓰거나 말할 때 때때로 생각하기 위해 멈추는데, 이러한 추론은 거의 모든 서면 텍스트에 내재되어 있음.
Self-Taught Reasoner(STaR)에서는 질문-응답에서 소수의 예시를 통해 근거를 추론하고, 올바른 답을 이끌어내는 근거에서 학습하여 유용한 생각을 배우는 방법을 제시함.
Quiet-STaR은 STaR의 일반화로, 언어 모델이 미래의 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하도록 학습하여 예측을 개선함.

주요 도전 과제 및 해결 방안

연속적인 텍스트 생성의 계산 비용, 언어 모델이 내부적인 생각을 생성하거나 사용하는 방법을 처음에는 모르는 문제, 개별 다음 토큰을 넘어서 예측할 필요성 등의 도전 과제가 있음.
이러한 문제를 해결하기 위해, 생각의 시작과 끝을 나타내는 학습 가능한 토큰을 사용하는 토큰별 병렬 샘플링 알고리즘과 확장된 teacher-forcing 기술을 제안함.

모델 성능 향상

생성된 근거는 어려운 토큰을 예측하는 데 도움이 되며, 언어 모델이 어려운 질문에 직접 답변하는 능력을 향상시킴.
인터넷 텍스트 코퍼스에서 언어 모델을 Quiet-STaR로 계속 사전 훈련한 결과, GSM8K(5.9%→10.9%)와 CommonsenseQA(36.3%→47.2%)에서 zero-shot 개선을 발견하고, 자연 텍스트에서 어려운 토큰의 perplexity 개선을 관찰함.
이러한 개선은 해당 작업에 대한 미세 조정 없이도 이루어짐.

GN⁺의 의견

Quiet-STaR는 언어 모델이 더 일반적이고 확장 가능한 방식으로 추론을 학습할 수 있는 방향으로 한 걸음 나아갔음을 보여줌.
이 연구는 인공지능 분야에서 언어 이해와 추론 능력을 강화하는 중요한 진전을 나타내며, 자연어 처리 기술의 발전에 기여할 수 있음.
비판적으로 볼 때, 이러한 기술이 실제 세계의 복잡한 문제에 적용될 때 예상치 못한 결과를 초래할 수도 있으며, 이에 대한 추가적인 연구와 안전 조치가 필요함.
비슷한 기능을 제공하는 다른 프로젝트로는 OpenAI의 GPT 시리즈나 Google의 BERT가 있으며, 이들도 언어 이해와 생성 능력을 향상시키기 위한 연구가 진행 중임.
기술 도입 시 고려해야 할 사항으로는 학습 데이터의 질과 다양성, 모델의 윤리적 사용, 그리고 계산 비용이 있으며, 이 기술을 선택함으로써 얻을 수 있는 이점으로는 더 정확하고 세밀한 언어 모델의 생성이 있음.

▲

GN⁺ 2024-03-17 [-]

Hacker News 의견

네트워크가 약 50층 깊이로 구성되어 있다면, 이 네트워크는 50 '단계'만큼의 상징적 질문에 대해 추론할 수 있음을 의미한다. 모델이 훈련된 하위 공간에서의 50단계가 인간의 한 단계보다 더 많은 것을 달성할 수 있음을 의미할 수 있지만, 인간은 이러한 단계를 넘어서 생각하고 심사숙고하는 능력이 있음을 알고 있다.
에츠거르 다익스트라는 네덜란드어를 모국어로 하면서도 매우 정확한 영어 스타일을 가지고 있었다. 그는 어린 시절부터 문장을 시작하기 전에 그 문장을 어떻게 끝낼지 알고 있어야 한다고 배웠다고 회상했다. 이 두 가지 관찰 사이에는 인과 관계가 있을 것이라는 추측이 있다.
LLM 기반 시스템의 성능 향상에 기여하는 '사고의 연쇄' 추론 패턴이 카너먼의 '빠르고 느린 사고'에서 다루는 두 가지 시스템 모델과 병행한다는 생각이 들었다. '시스템 1'은 낮은 노력과 계산으로 처리되는 생각에, '시스템 2'는 의식적이고 고도의 인지 작업에 사용된다. LLM이 '시스템 1'만을 사용하는 것처럼 보이는 비판에 대해, 단계별로 생각하도록 LLM을 유도할 때, 이는 마치 '시스템 2'와 같은 의사결정 모래상자를 제공하는 것과 유사하다.
이 방법을 사용하면 알려진 답변이 있지만 추론 단계가 누락된 많은 작업에 대해 AI를 훈련시킬 수 있는 누락된 부분이다. 이 방법을 사용하면 적은 양의 주석이 달린 데이터로도 추론 능력에 도달할 수 있다. 생성된 생각이 인간에게는 이해하기 어려울 수 있지만 올바른 답을 얻는 데 훨씬 더 도움이 될 수 있다면, 우리는 스스로보다 더 지능적인 것을 창조했다고 할 수 있다.
텍스트의 많은 의미는 줄 사이에 숨겨져 있으며, 문서에 왜 진술이 나타나는지 이해하지 못하면 독자는 피상적인 이해만 가지고 있다. 그러나 대부분의 사람들은 세계 모델을 가지고 있으며 책에 나타나는 진술의 이유를 어느 정도 알고 있다. 예를 들어 유체 역학 교과서를 읽을 때, 수학을 이해하지 못할 수도 있지만, 그 진술이 나타나는 이유를 알고 있다.
이 논문의 저자들이 OpenAI의 소문에 둘러싸인 Q* 모델과 관련이 있는지, 아니면 단순히 이름의 우연일지에 대한 질문이 있다.
이들은 거의 8년 전에 그들의 작업보다 앞서 RNN에서 (학습된) 가변 계산을 적용한 언어 모델링에 관한 논문 [1]을 인용하지 않았다. 당시 마이크로소프트도 이미지 인식을 위해 유사한 것을 가지고 있었다.
이것은 오늘 아침에 프롬프트 수준에서 시도했던 것과 기본적으로 같지만, LLM이 그것의 맥락을 재탐색하는 데 도움이 되는 '메타-토큰'을 도입하는 것을 더 나아가 생각했다. 이러한 메타-토큰 중 일부는 맥락의 일부를 강조하거나 구조화하거나 요약하거나 잊어버리는 등의 부작용을 가질 수 있다. 이것은 LLM에게 논리적/추론 능력을 부여하는 것뿐만 아니라 자체 인지 구조를 만들어낼 수 있는 수단을 제공할 수 있다.
인텔 팀이 NeuralChat과 마찬가지로 Base Mistral 7B를 평가에 적합하지 않게 사용하려고 시도한 사례가 있다.
이 연구가 매우 흥미로워 보이며, 연구자들이 곧 코드를 공개할 가능성이 있는지에 대한 질문이 있다.

답변달기