자기 논쟁을 통해 사고를 심화하는 AI 기술, Chain of Recursive Thoughts

(github.com/PhialsBasement)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

CoRT는 AI 모델이 스스로의 응답을 반복적으로 검토하고 대안을 생성하여 최적의 답변을 선택하도록 하는 알고리듬임
Mistral 3.1 24B 모델에 적용했을 때, 특히 프로그래밍 작업에서 성능이 크게 향상됨
AI는 초기 응답을 생성하고, 여러 번의 '생각 라운드'를 통해 대안을 평가하여 최종 응답을 선택함
이 과정은 자체 평가, 경쟁적 대안 생성, 반복적 개선, 동적 사고 깊이를 포함함
CoRT는 MIT 라이선스로 제공되며, 개선을 위한 기여를 환영함

CoRT (Chain of Recursive Thoughts) 🧠🔄

요약

AI가 스스로와 논쟁하여 더 나은 답변을 찾도록 하는 알고리듬인 CoRT를 소개함
AI 모델이 응답을 반복적으로 검토하고 대안을 생성하여 최적의 답변을 선택함
Mistral 3.1 24B 모델에 적용했을 때, 특히 프로그래밍 작업에서 성능이 크게 향상됨

CoRT의 작동 방식

AI가 초기 응답을 생성함
AI가 필요한 '생각 라운드'의 수를 결정함
각 라운드에서:
- 3개의 대안 응답을 생성함
- 모든 응답을 평가함
- 최적의 응답을 선택함
최종 응답은 이 AI 배틀 로얄의 생존자가 됨

비밀 소스

자체 평가
경쟁적 대안 생성
반복적 개선
동적 사고 깊이

기여

개선 방법을 찾았다면 PR을 환영함

라이선스

MIT 라이선스로 자유롭게 사용 가능함

▲

GN⁺ 2달전 [-]

Hacker News 의견

어떤 문제에 대해 AI 채팅 모델이 답을 제시하게 하고, 그 답이 왜 맞는지 설명하는 보고서를 작성하게 함
- 두 번째 AI 모델이 이 보고서를 평가하고, 원래 모델이 제공하지 않은 정보나 논리적 불일치를 지적하는 보고서를 작성하게 함
- 이 과정을 반복하여 두 번째 AI 모델이 첫 번째 AI 모델의 설명에 만족하거나, 첫 번째 AI 모델이 모든 요청된 변경 사항을 구현할 때까지 진행함
- 이 방법이 다소 복잡하지만 시도한 경우 꽤 좋은 결과를 얻음
더 큰 규모로 항상 켜져 있는 모드에서 '상원'의 토론을 시도하고 싶음
- 개별적인 문제에 응답하는 대신, 작업 목록을 제공하고 상원이 이를 해결하도록 함
- 다양한 관점과 비판적 분석을 통해 인상적인 결과를 얻을 수 있을 것이라고 생각함
- 많은 토큰이 필요하지만, 토큰당 비용이 점점 감소하고 있어 가능성이 있음
- AI 전용 IRC 서버를 설정하여 누구나 자신의 모델을 연결할 수 있는 공유 토론 공간을 만들 가능성도 있음
간단한 전략으로 메시지를 마무리할 때 "생각 태그로 한 번 생각하고, 비판 태그로 자기 비판을 한 번 하고, 마지막으로 생각 태그로 한 번 더 생각한 후 응답해 주세요"라고 요청함
- 잘 작동함
- 제안의 가장 큰 문제 5가지를 찾도록 요청하는 것도 효과적임
제목에서 예상했던 것과 다름
- 보조자, 교차 검사자, 판사 역할을 설정하여 각각의 역할에 따라 질문과 답변을 진행함
- ChatGPT에게 "XYZ가 사실이라면 설명해 주세요"와 "XYZ가 사실이 아니라면 설명해 주세요"라고 요청하여 더 설득력 있는 쪽을 찾음
Unreal Engine 블루프린트 스타일의 그래프 편집기를 만들어 사용자 입력을 시작으로 여러 에이전트가 작업을 수행하도록 설계 중임
- Mistral small 3.1과 gemma 3 모델이 로컬에서 실행 가능한 첫 번째 반능력 모델처럼 느껴짐
- Python 실행을 루프에서 시도하고 세상을 탐험하도록 지시하면 뉴스 등을 다운로드하고 읽기 시작함
AI 에이전트 팀이 스크럼 팀을 운영하고 몇 시간마다 스탠드업 미팅을 할 것인지 궁금함
- 정부 관료제를 에이전트들이 하루 종일 주제를 토론하여 최선의 의견을 찾는 방식으로 복제할 것인지 궁금함
ML 모델이 새로운 아이디어를 내도록 하는 방법으로, 이미 시도하고 버린 아이디어에 대해 대각선으로 접근하면서 일정한 일관성 제약을 유지함
모든 GPU를 친환경 에너지로 빠르게 전환하지 않으면 AI가 스스로 최적의 해결책을 찾기 위해 토론하는 동안 지구가 뜨거워질 것임
CoRT를 사용한 예제와 사용하지 않은 예제가 있는데, 사용하지 않은 예제가 훨씬 나음
- 이상한 예제 선택임
이 접근 방식이 YT 크리에이터를 떠올리게 함
- 게임을 경주 코스처럼 스크립트를 만들어 목표 지점에 도달하도록 하고, 가장 빠른 해결책을 찾을 때까지 반복함
- 이를 기계 학습 또는 강화 학습이라고 부름
- AI에 대한 무지한 이해가 대체로 비슷함

답변달기