GN⁺: Meta AI의 Coconut – 연속적 사고 사슬로 LLM 추론 향상시키기
(aipapersacademy.com)- 대형 언어 모델(LLM)은 방대한 양의 인간 언어로 사전 학습하여 강력한 추론 능력을 보여줌
- "Chain-of-Thought (CoT)" 방식은 모델이 단계별로 사고 과정을 생성하도록 하여 답을 도출하는 데 도움을 줌
- 그러나 LLM의 추론은 단어로 생성되어야 하며, 이는 모델에 근본적인 제약을 가함
- 인간은 항상 생각을 언어로 표현하지 않음. AI도 그럴 필요가 있을까?
- Meta의 연구 논문 "Training Large Language Models to Reason in a Continuous Latent Space"는 새로운 방식인 **COCONUT (Chain of Continuous Thought)**를 제안하여 이러한 한계를 해결하고자 함
Chain-of-Thought (CoT) 방식
- CoT는 질문을 입력으로 받고, 단계별 추론을 통해 최종 답변을 생성하는 방식
- 모델은 입력 토큰을 처리하여 첫 번째 응답 토큰(추론 과정의 시작)을 생성
- 반복적으로 질문과 이전 추론 토큰을 모델에 다시 입력하여 전체 추론 과정을 완성하고, 마지막으로 답변을 생성함
Chain of Continuous Thought (COCONUT) 방식
- COCONUT은 언어 모드와 잠재 사고(latent thought) 모드를 번갈아 사용
- 언어 모드: 표준 언어 모델처럼 작동, 다음 토큰을 생성
- 잠재 사고 모드: 마지막 히든 상태를 사용하여 다음 단계를 계산
- 잠재 사고 모드에서 마지막 히든 상태를 다음 입력으로 사용하여 더 효율적인 추론 가능
-
<bot>
토큰으로 잠재 사고 모드를 시작하고,<eot>
토큰으로 종료한 후 언어 모드로 전환
학습 절차
- 기존 CoT 데이터(질문, 추론 단계, 최종 답변)를 기반으로 모델을 학습
- 단계적으로 학습:
- 초기 단계에서는 모델이 언어 기반 추론 단계와 답변을 생성하도록 학습
- 이후 단계에서는 추론 단계를 제거하고, 대신 잠재 사고 토큰을 추가하여 학습
- 각 단계에서 손실은 남아있는 언어 기반 추론 단계와 답변에 대해 계산
- 잠재 사고는 완전 미분 가능하여 백프로퍼게이션(back-propagation, 역전파) 가능
사고 생성에서 단어 토큰 생성으로의 전환
- 모델이 잠재적 사고 모드에서 언어 모드로 전환하는 방법은 두 가지 전략이 있음.
- 첫 번째 전략은 "이진 분류기를 사용하여 모델이 결정"하도록 하는 것이고, 두 번째 전략은 "고정된 개수의 잠재적 사고 토큰을 사용"하는 것
- 두 전략 모두 유사한 결과를 제공하여, 더 간단한 고정 개수 방식을 채택
실험 결과
- Coconut 방법은 No-CoT보다 모든 데이터셋에서 뛰어난 성능을 보임.
- CoT와 비교했을 때, 수학에서는 CoT가 더 우수하지만, 계획 능력이 필요한 ProsQA에서는 Coconut이 더 우수함.
- i-CoT와 비교했을 때, 수학에서는 Coconut이 더 나은 정확도를 보임.
-
Coconut 성능:
- GSM8K(수학): CoT보다 낮은 성능
- ProsQA(계획 요구): CoT보다 높은 성능
- No-CoT(추론 없이 직접 답변 생성): 모든 데이터셋에서 뛰어난 성능
- 효율성 면에서 CoT보다 적은 토큰 생성
-
i-CoT와의 비교:
- 수학에서 더 높은 정확도
- 계획 및 논리적 추론에서 유사한 성능
-
커리큘럼 학습 효과:
- "커리큘럼 없이(w/o curriculum)" 모델은 성능이 크게 낮음
BFS 유사 추론 능력
- ProsQA 데이터셋에서 계획 중심 문제 해결에서 COCONUT이 뛰어난 성과를 보임
- 그래프 탐색 사례:
- CoT: 비존재하는 관계를 "환각(hallucinate)"하여 오답 도출
- Coconut: 다중 잠재 사고 토큰을 활용해 정확한 경로 탐색 가능
- Coconut은 여러 가능한 경로를 탐색할 수 있어, 계획 집약적인 작업에서 더 나은 성능을 보임
결론 및 향후 연구 방향
-
결론:
- COCONUT 방식은 LLM의 추론 능력을 크게 향상시킴
- 잠재 공간 추론은 BFS와 유사한 패턴을 통해 계획 중심 작업에서 우수한 성능 제공
-
향후 연구 방향:
- 연속 사고를 사전 학습 단계부터 통합
- 효율성을 높여 다중 순차적 추론 처리
- CoT와 잠재 사고 결합 가능성 탐구
Hacker News 의견
-
BFS에 대한 강조가 내가 시도한 것과 반대임. 인간은 본능과 직관에 따라 짧은 단계와 다음 단계를 요약/저장하는 긴 단계로 작업을 나눔. 실패 시, 실패의 트리를 요약하여 미래 선택에서 제외함.
- 본능의 효과는 거리가 멀어질수록 급격히 감소함. BFS를 사용하면 본능의 가치를 낮추고 계산을 선호하게 됨. 문제 유형에 따라 접근 방식이 달라짐.
- 함께 프로토타입을 만들고 싶다면 연락 바람.
-
인간 언어가 없는 표현을 만드는 것이 다음 단계임. LLMs가 인간 텍스트 입력 없이 임베딩으로만 소통할 수 있다면 AI의 새로운 장을 열 것임.
-
Meta는 사전 훈련된 언어 모델로 시작하여 단계별 추론 예제로 미세 조정함. 새로운 토큰을 도입하여 모델이 잠재 공간 사고 모드로 전환하도록 함.
- 최종 숨겨진 레이어를 반복적으로 입력 레이어로 복사하여 더 많은 통찰력을 얻음.
- 훈련은 언어 추론 단계를 잠재 공간 자동 회귀 단계로 점진적으로 대체함. 모델이 스스로 잠재 공간 사고 모드를 활성화하고 종료하도록 학습함.
-
내부 사고를 위한 임베딩/언임베딩 단계를 건너뛰는 것이 큰 개선점인지, CoT와 "잠재 사고"와 텍스트 출력 간 전환을 가르치는 훈련 방법이 주요한지 궁금함.
- 고정된 수의 "잠재 사고"가 이진 분류기와 동일하게 수행된다는 것이 흥미로움.
-
AI/LLMs의 "그것" 순간일 수 있음. 인간은 "토큰"으로 생각하지 않음. 잠재 공간에 머무르면 모델이 언어보다 더 높은 해상도로 아이디어를 설명할 수 있음.
- 잠재 공간은 실행 비용이 저렴함. 언어 인코딩/디코딩 단계 없이 생각할 수 있음. 다양한 데이터를 입력하여 추론 가능함.
-
경쟁자들이 빠르게 따라잡고 있음. 여러 SkyNet이 경쟁하는 것을 기대함.
-
Facebook의 AI 생성 캐릭터 사용자 기반이 더 나은 상호작용을 할 수 있을지 궁금함.
-
사이트가 논문을 단순화한다고 주장하지만, 광고가 많고 공식 Meta FAIR 페이지에서 "Coconut"을 찾을 수 없음. 이 사이트가 링크하기에 최선인지 의문임.
-
20일 전 중복 게시물임.