네트워크가 약 50층 깊이로 구성되어 있다면, 이 네트워크는 50 '단계'만큼의 상징적 질문에 대해 추론할 수 있음을 의미한다. 모델이 훈련된 하위 공간에서의 50단계가 인간의 한 단계보다 더 많은 것을 달성할 수 있음을 의미할 수 있지만, 인간은 이러한 단계를 넘어서 생각하고 심사숙고하는 능력이 있음을 알고 있다.
에츠거르 다익스트라는 네덜란드어를 모국어로 하면서도 매우 정확한 영어 스타일을 가지고 있었다. 그는 어린 시절부터 문장을 시작하기 전에 그 문장을 어떻게 끝낼지 알고 있어야 한다고 배웠다고 회상했다. 이 두 가지 관찰 사이에는 인과 관계가 있을 것이라는 추측이 있다.
LLM 기반 시스템의 성능 향상에 기여하는 '사고의 연쇄' 추론 패턴이 카너먼의 '빠르고 느린 사고'에서 다루는 두 가지 시스템 모델과 병행한다는 생각이 들었다. '시스템 1'은 낮은 노력과 계산으로 처리되는 생각에, '시스템 2'는 의식적이고 고도의 인지 작업에 사용된다. LLM이 '시스템 1'만을 사용하는 것처럼 보이는 비판에 대해, 단계별로 생각하도록 LLM을 유도할 때, 이는 마치 '시스템 2'와 같은 의사결정 모래상자를 제공하는 것과 유사하다.
이 방법을 사용하면 알려진 답변이 있지만 추론 단계가 누락된 많은 작업에 대해 AI를 훈련시킬 수 있는 누락된 부분이다. 이 방법을 사용하면 적은 양의 주석이 달린 데이터로도 추론 능력에 도달할 수 있다. 생성된 생각이 인간에게는 이해하기 어려울 수 있지만 올바른 답을 얻는 데 훨씬 더 도움이 될 수 있다면, 우리는 스스로보다 더 지능적인 것을 창조했다고 할 수 있다.
텍스트의 많은 의미는 줄 사이에 숨겨져 있으며, 문서에 왜 진술이 나타나는지 이해하지 못하면 독자는 피상적인 이해만 가지고 있다. 그러나 대부분의 사람들은 세계 모델을 가지고 있으며 책에 나타나는 진술의 이유를 어느 정도 알고 있다. 예를 들어 유체 역학 교과서를 읽을 때, 수학을 이해하지 못할 수도 있지만, 그 진술이 나타나는 이유를 알고 있다.
이 논문의 저자들이 OpenAI의 소문에 둘러싸인 Q* 모델과 관련이 있는지, 아니면 단순히 이름의 우연일지에 대한 질문이 있다.
이들은 거의 8년 전에 그들의 작업보다 앞서 RNN에서 (학습된) 가변 계산을 적용한 언어 모델링에 관한 논문 [1]을 인용하지 않았다. 당시 마이크로소프트도 이미지 인식을 위해 유사한 것을 가지고 있었다.
이것은 오늘 아침에 프롬프트 수준에서 시도했던 것과 기본적으로 같지만, LLM이 그것의 맥락을 재탐색하는 데 도움이 되는 '메타-토큰'을 도입하는 것을 더 나아가 생각했다. 이러한 메타-토큰 중 일부는 맥락의 일부를 강조하거나 구조화하거나 요약하거나 잊어버리는 등의 부작용을 가질 수 있다. 이것은 LLM에게 논리적/추론 능력을 부여하는 것뿐만 아니라 자체 인지 구조를 만들어낼 수 있는 수단을 제공할 수 있다.
인텔 팀이 NeuralChat과 마찬가지로 Base Mistral 7B를 평가에 적합하지 않게 사용하려고 시도한 사례가 있다.
이 연구가 매우 흥미로워 보이며, 연구자들이 곧 코드를 공개할 가능성이 있는지에 대한 질문이 있다.
Hacker News 의견