▲GN⁺ 2025-01-01 | parent | ★ favorite | on: Meta AI의 Coconut – 연속적 사고 사슬로 LLM 추론 향상시키기(aipapersacademy.com)Hacker News 의견 BFS에 대한 강조가 내가 시도한 것과 반대임. 인간은 본능과 직관에 따라 짧은 단계와 다음 단계를 요약/저장하는 긴 단계로 작업을 나눔. 실패 시, 실패의 트리를 요약하여 미래 선택에서 제외함. 본능의 효과는 거리가 멀어질수록 급격히 감소함. BFS를 사용하면 본능의 가치를 낮추고 계산을 선호하게 됨. 문제 유형에 따라 접근 방식이 달라짐. 함께 프로토타입을 만들고 싶다면 연락 바람. 인간 언어가 없는 표현을 만드는 것이 다음 단계임. LLMs가 인간 텍스트 입력 없이 임베딩으로만 소통할 수 있다면 AI의 새로운 장을 열 것임. Meta는 사전 훈련된 언어 모델로 시작하여 단계별 추론 예제로 미세 조정함. 새로운 토큰을 도입하여 모델이 잠재 공간 사고 모드로 전환하도록 함. 최종 숨겨진 레이어를 반복적으로 입력 레이어로 복사하여 더 많은 통찰력을 얻음. 훈련은 언어 추론 단계를 잠재 공간 자동 회귀 단계로 점진적으로 대체함. 모델이 스스로 잠재 공간 사고 모드를 활성화하고 종료하도록 학습함. 내부 사고를 위한 임베딩/언임베딩 단계를 건너뛰는 것이 큰 개선점인지, CoT와 "잠재 사고"와 텍스트 출력 간 전환을 가르치는 훈련 방법이 주요한지 궁금함. 고정된 수의 "잠재 사고"가 이진 분류기와 동일하게 수행된다는 것이 흥미로움. AI/LLMs의 "그것" 순간일 수 있음. 인간은 "토큰"으로 생각하지 않음. 잠재 공간에 머무르면 모델이 언어보다 더 높은 해상도로 아이디어를 설명할 수 있음. 잠재 공간은 실행 비용이 저렴함. 언어 인코딩/디코딩 단계 없이 생각할 수 있음. 다양한 데이터를 입력하여 추론 가능함. 경쟁자들이 빠르게 따라잡고 있음. 여러 SkyNet이 경쟁하는 것을 기대함. Facebook의 AI 생성 캐릭터 사용자 기반이 더 나은 상호작용을 할 수 있을지 궁금함. 사이트가 논문을 단순화한다고 주장하지만, 광고가 많고 공식 Meta FAIR 페이지에서 "Coconut"을 찾을 수 없음. 이 사이트가 링크하기에 최선인지 의문임. 20일 전 중복 게시물임.
Hacker News 의견
BFS에 대한 강조가 내가 시도한 것과 반대임. 인간은 본능과 직관에 따라 짧은 단계와 다음 단계를 요약/저장하는 긴 단계로 작업을 나눔. 실패 시, 실패의 트리를 요약하여 미래 선택에서 제외함.
인간 언어가 없는 표현을 만드는 것이 다음 단계임. LLMs가 인간 텍스트 입력 없이 임베딩으로만 소통할 수 있다면 AI의 새로운 장을 열 것임.
Meta는 사전 훈련된 언어 모델로 시작하여 단계별 추론 예제로 미세 조정함. 새로운 토큰을 도입하여 모델이 잠재 공간 사고 모드로 전환하도록 함.
내부 사고를 위한 임베딩/언임베딩 단계를 건너뛰는 것이 큰 개선점인지, CoT와 "잠재 사고"와 텍스트 출력 간 전환을 가르치는 훈련 방법이 주요한지 궁금함.
AI/LLMs의 "그것" 순간일 수 있음. 인간은 "토큰"으로 생각하지 않음. 잠재 공간에 머무르면 모델이 언어보다 더 높은 해상도로 아이디어를 설명할 수 있음.
경쟁자들이 빠르게 따라잡고 있음. 여러 SkyNet이 경쟁하는 것을 기대함.
Facebook의 AI 생성 캐릭터 사용자 기반이 더 나은 상호작용을 할 수 있을지 궁금함.
사이트가 논문을 단순화한다고 주장하지만, 광고가 많고 공식 Meta FAIR 페이지에서 "Coconut"을 찾을 수 없음. 이 사이트가 링크하기에 최선인지 의문임.
20일 전 중복 게시물임.