1P by neo 2023-09-04 | favorite | 댓글 1개
  • 개방형 대화 시스템에서 사용되는 대형 언어 모델(LLMs)의 장기 기억력 향상을 위한 새로운 방법에 대한 논문
  • 장기 대화에서 중요한 정보를 잊어버리는 개방형 대화 시스템의 중요한 문제점
  • 기존 해결책은 대화 내용에서 핵심 정보를 얻기 위해 특정 검색기나 요약기를 훈련하는 것이지만, 이는 시간이 많이 소요되며 라벨링된 데이터의 품질에 크게 의존적임
  • 제안된 방법은 LLMs를 이용해 요약이나 기억을 재귀적으로 생성함으로써 이 문제를 완화하려고 함
  • 이 방법은 먼저 LLMs가 작은 대화 맥락을 기억하게 하고, 이전의 기억과 이후 맥락을 사용해 새로운 기억을 재귀적으로 생성함
  • 최신 기억의 도움으로 LLM은 매우 일관된 응답을 생성할 수 있음
  • 이 방법은 ChatGPT와 text-davinci-003를 사용하여 평가되었으며, 널리 사용되는 공개 데이터셋에서의 실험 결과, 장기 맥락 대화에서 더 일관된 응답을 생성할 수 있음을 보여줌
  • 이 방법은 LLM이 극도로 긴 맥락을 모델링할 수 있게 하는 잠재적인 해결책임
  • 이 방법에 대한 코드와 스크립트는 향후 공개될 예정임
  • 이 연구는 Simons Foundation, 회원 기관, 그리고 모든 기여자들의 지원을 받았음
Hacker News 의견
  • CodeRabbit이 PR 검토를 위해 기사에서 논의된 접근법과 유사하게 사용하며, 각 커밋에 대한 요약의 요약을 생성하고 추가 커밋이 이루어짐에 따라 점진적으로 업데이트합니다.
  • 일부 사용자들은 "텍스트 공간"에서 메모리를 구축하는 효과에 대해 의구심을 표현하며, 메모리는 전체 의미를 보존할 수 있는 밀집 임베딩 공간에 더 잘 저장될 것이라고 제안합니다.
  • 연구에서의 투명성과 재현성에 대한 요구가 있으며, 일부 사용자들은 실험에 사용된 코드와 스크립트에 대한 접근 없이는 주장을 믿지 않습니다.
  • 재귀적 요약의 사용이 성공적으로 업무 환경에 적용되었으며, 수천 개의 "브리핑"을 다섯 단락의 텍스트로 요약하고 각 브리핑을 주제와 하위 주제로 분류합니다.
  • 일부 사용자들은 재귀적 요약과 관련하여 문제를 겪었으며, 특정 비트가 모든 요약 라운드를 살아남아 모델이 특정 주제에 갇히는 경우 등이 있습니다.
  • 논문의 세부 사항 부족에 대한 비판이 있으며, 일부 사용자들은 이를 실망스럽고 LLM 개발자들에게 별로 가치가 없다고 생각합니다.
  • 일부 사용자들은 기법의 참신성에 의문을 제기하며, LLM 기반 채팅 기록 메모리의 요약이 이미 확립된 기법이며, 논문에서 제안된 대로 모든 메시지에서 요약하는 것은 주요 성능 병목이라고 주장합니다.
  • 논문의 메모리 텍스트를 프롬프트의 일부로 추가하는 구현에 대한 의문이 제기되며, 컨텍스트 윈도우 토큰을 소비하지 않는 저장/검색 시스템에 대한 제안이 있습니다.
  • 논문에서 논의된 기법은 Langchain의 "요약" 메모리 기능과 비교되며, 이는 2023년 3월 이후로 존재했다고 보고되었습니다.