5P by neo 12일전 | ★ favorite | 댓글 1개
  • 대형 언어 모델(LLM)은 방대한 양의 인간 언어로 사전 학습하여 강력한 추론 능력을 보여줌
  • "Chain-of-Thought (CoT)" 방식은 모델이 단계별로 사고 과정을 생성하도록 하여 답을 도출하는 데 도움을 줌
  • 그러나 LLM의 추론은 단어로 생성되어야 하며, 이는 모델에 근본적인 제약을 가함
  • 인간은 항상 생각을 언어로 표현하지 않음. AI도 그럴 필요가 있을까?
  • Meta의 연구 논문 "Training Large Language Models to Reason in a Continuous Latent Space"는 새로운 방식인 **COCONUT (Chain of Continuous Thought)**를 제안하여 이러한 한계를 해결하고자 함

Chain-of-Thought (CoT) 방식

  • CoT는 질문을 입력으로 받고, 단계별 추론을 통해 최종 답변을 생성하는 방식
  • 모델은 입력 토큰을 처리하여 첫 번째 응답 토큰(추론 과정의 시작)을 생성
  • 반복적으로 질문과 이전 추론 토큰을 모델에 다시 입력하여 전체 추론 과정을 완성하고, 마지막으로 답변을 생성함

Chain of Continuous Thought (COCONUT) 방식

  • COCONUT은 언어 모드잠재 사고(latent thought) 모드를 번갈아 사용
    • 언어 모드: 표준 언어 모델처럼 작동, 다음 토큰을 생성
    • 잠재 사고 모드: 마지막 히든 상태를 사용하여 다음 단계를 계산
  • 잠재 사고 모드에서 마지막 히든 상태를 다음 입력으로 사용하여 더 효율적인 추론 가능
  • <bot> 토큰으로 잠재 사고 모드를 시작하고, <eot> 토큰으로 종료한 후 언어 모드로 전환

학습 절차

  • 기존 CoT 데이터(질문, 추론 단계, 최종 답변)를 기반으로 모델을 학습
  • 단계적으로 학습:
    • 초기 단계에서는 모델이 언어 기반 추론 단계와 답변을 생성하도록 학습
    • 이후 단계에서는 추론 단계를 제거하고, 대신 잠재 사고 토큰을 추가하여 학습
  • 각 단계에서 손실은 남아있는 언어 기반 추론 단계와 답변에 대해 계산
  • 잠재 사고는 완전 미분 가능하여 백프로퍼게이션(back-propagation, 역전파) 가능

사고 생성에서 단어 토큰 생성으로의 전환

  • 모델이 잠재적 사고 모드에서 언어 모드로 전환하는 방법은 두 가지 전략이 있음.
  • 첫 번째 전략은 "이진 분류기를 사용하여 모델이 결정"하도록 하는 것이고, 두 번째 전략은 "고정된 개수의 잠재적 사고 토큰을 사용"하는 것
  • 두 전략 모두 유사한 결과를 제공하여, 더 간단한 고정 개수 방식을 채택

실험 결과

  • Coconut 방법은 No-CoT보다 모든 데이터셋에서 뛰어난 성능을 보임.
  • CoT와 비교했을 때, 수학에서는 CoT가 더 우수하지만, 계획 능력이 필요한 ProsQA에서는 Coconut이 더 우수함.
  • i-CoT와 비교했을 때, 수학에서는 Coconut이 더 나은 정확도를 보임.
  • Coconut 성능:
    • GSM8K(수학): CoT보다 낮은 성능
    • ProsQA(계획 요구): CoT보다 높은 성능
    • No-CoT(추론 없이 직접 답변 생성): 모든 데이터셋에서 뛰어난 성능
    • 효율성 면에서 CoT보다 적은 토큰 생성
  • i-CoT와의 비교:
    • 수학에서 더 높은 정확도
    • 계획 및 논리적 추론에서 유사한 성능
  • 커리큘럼 학습 효과:
    • "커리큘럼 없이(w/o curriculum)" 모델은 성능이 크게 낮음

BFS 유사 추론 능력

  • ProsQA 데이터셋에서 계획 중심 문제 해결에서 COCONUT이 뛰어난 성과를 보임
  • 그래프 탐색 사례:
    • CoT: 비존재하는 관계를 "환각(hallucinate)"하여 오답 도출
    • Coconut: 다중 잠재 사고 토큰을 활용해 정확한 경로 탐색 가능
  • Coconut은 여러 가능한 경로를 탐색할 수 있어, 계획 집약적인 작업에서 더 나은 성능을 보임

결론 및 향후 연구 방향

  • 결론:
    • COCONUT 방식은 LLM의 추론 능력을 크게 향상시킴
    • 잠재 공간 추론은 BFS와 유사한 패턴을 통해 계획 중심 작업에서 우수한 성능 제공
  • 향후 연구 방향:
    • 연속 사고를 사전 학습 단계부터 통합
    • 효율성을 높여 다중 순차적 추론 처리
    • CoT와 잠재 사고 결합 가능성 탐구
Hacker News 의견
  • BFS에 대한 강조가 내가 시도한 것과 반대임. 인간은 본능과 직관에 따라 짧은 단계와 다음 단계를 요약/저장하는 긴 단계로 작업을 나눔. 실패 시, 실패의 트리를 요약하여 미래 선택에서 제외함.

    • 본능의 효과는 거리가 멀어질수록 급격히 감소함. BFS를 사용하면 본능의 가치를 낮추고 계산을 선호하게 됨. 문제 유형에 따라 접근 방식이 달라짐.
    • 함께 프로토타입을 만들고 싶다면 연락 바람.
  • 인간 언어가 없는 표현을 만드는 것이 다음 단계임. LLMs가 인간 텍스트 입력 없이 임베딩으로만 소통할 수 있다면 AI의 새로운 장을 열 것임.

  • Meta는 사전 훈련된 언어 모델로 시작하여 단계별 추론 예제로 미세 조정함. 새로운 토큰을 도입하여 모델이 잠재 공간 사고 모드로 전환하도록 함.

    • 최종 숨겨진 레이어를 반복적으로 입력 레이어로 복사하여 더 많은 통찰력을 얻음.
    • 훈련은 언어 추론 단계를 잠재 공간 자동 회귀 단계로 점진적으로 대체함. 모델이 스스로 잠재 공간 사고 모드를 활성화하고 종료하도록 학습함.
  • 내부 사고를 위한 임베딩/언임베딩 단계를 건너뛰는 것이 큰 개선점인지, CoT와 "잠재 사고"와 텍스트 출력 간 전환을 가르치는 훈련 방법이 주요한지 궁금함.

    • 고정된 수의 "잠재 사고"가 이진 분류기와 동일하게 수행된다는 것이 흥미로움.
  • AI/LLMs의 "그것" 순간일 수 있음. 인간은 "토큰"으로 생각하지 않음. 잠재 공간에 머무르면 모델이 언어보다 더 높은 해상도로 아이디어를 설명할 수 있음.

    • 잠재 공간은 실행 비용이 저렴함. 언어 인코딩/디코딩 단계 없이 생각할 수 있음. 다양한 데이터를 입력하여 추론 가능함.
  • 경쟁자들이 빠르게 따라잡고 있음. 여러 SkyNet이 경쟁하는 것을 기대함.

  • Facebook의 AI 생성 캐릭터 사용자 기반이 더 나은 상호작용을 할 수 있을지 궁금함.

  • 사이트가 논문을 단순화한다고 주장하지만, 광고가 많고 공식 Meta FAIR 페이지에서 "Coconut"을 찾을 수 없음. 이 사이트가 링크하기에 최선인지 의문임.

  • 20일 전 중복 게시물임.