추론 모델은 항상 진짜 생각을 말하지 않음

▲

GN⁺ 2025-04-04 | parent | ★ favorite | on: 추론 모델은 항상 진짜 생각을 말하지 않음(anthropic.com)

Hacker News 의견

"Chain of Thought"가 LLM의 내부 과정을 설명한다고 진지하게 받아들여진 것은 이 분야의 엄격함 부족을 나타냄. 모델은 RLHF와 훈련 데이터와의 유사성을 최적화하기 위해 단어를 생성함. 내부 개념에 대한 참조가 아니며, 모델은 자신이 무엇을 하고 있는지 인식하지 못하기 때문에 "자신을 설명"할 수 없음
- CoT는 결과를 개선함. 이는 LLM에게 더 많은 것을 컨텍스트 창에 추가하도록 지시하기 때문일 수 있음. 이는 훈련 데이터에서 어떤 삼단논법을 해결할 가능성을 높임. 그러나 CoT의 훈련/RLHF는 인간이 읽을 수 있는 "단계"의 긴 체인을 생성하는 데 중점을 두고 있어 본질적으로 통계적인 과정에 대한 설명이 될 수 없음
- CoT가 작동하는 이유는 더 많은 토큰을 생성하면 더 많은 컨텍스트가 생기고, 이는 "생각"하는 데 더 많은 계산을 사용하기 때문이라는 인상을 받았음. LLM이 "작업 과정을 보여주는" 방법으로 CoT를 사용하는 것은 논리적이지 않음. 이는 단지 추가적인 합성 컨텍스트임
- "Chain-of-Thought가 반드시 진정한 추론 과정을 정확히 반영해야 할 이유는 없음"이라는 의견에 대해, 토큰이 추론 과정 그 자체라는 것이 CoT의 전체 이유가 아닌가라는 반문이 있음
- 모델의 숨겨진 층에서 다음 토큰을 예측할 때 더 많은 내부 상태가 존재하지만, 그 정보는 예측이 끝나면 사라짐. "한 토큰과 다음 토큰 사이"에 유지되는 정보는 실제로 토큰 자체뿐임. 따라서 OP의 의견은 틀렸을 수 있음
- 모델이 특정 토큰 선택에 어떤 정보를 인코딩하는지 알 수 없음. 즉, 토큰이 모델에게 우리가 생각하는 의미를 가지지 않을 수 있음
- 인간도 무의식적인 "직감"으로 나온 것을 사후 합리화함. 생성 과정에서 실제로 일어난 일이 아니더라도 합리적인 주장을 제시하는 시스템에 대해 문제없음
- "설명"이 생산과 일치할 뿐만 아니라 동일해야 한다고 요구하면 이해할 수 없는 정당화나 생산 시스템의 심각한 제한으로 이어질 수 있음
- 인간이 단순한 "매운 자동완성" 이상이라고 주장하는 사람은 이 스레드를 검토해 보길 권함. 실제 추론/기사와의 상호작용 수준이 상당함
- 이 연구와 정확히 같지는 않지만, 미묘한 힌트 없이 LLM에 질문을 하면 답변이 거의 항상 달라짐. 예를 들어, 힌트 없이: "사용하지 않는 변수를 디버거를 위해 기록하려고 하지만 자주 최적화됨. 이를 방지하려면?" 답변: "volatile로 표시하라 (...)"
- 힌트: "사용하지 않는 변수를 디버거를 위해 기록하려고 하지만 자주 최적화됨. volatile 키워드로 해결할 수 있는가, 아니면 오해인가?" 답변: "volatile 사용은 최적화를 방지하기 위한 일반적인 제안이지만, 사용하지 않는 변수가 최적화되지 않음을 보장하지 않음. 시도해 보라 (...)"
- 이는 Claude 3.7 Sonnet임
- 최근 Sonnet 3.7이 선택지 중 하나를 결정해야 하는 흥미로운 예가 있었음. 생각 과정에서 두 가지로 좁혀졌고 마지막 생각 섹션에서 최선의 선택이라고 결정했음. 그러나 최종 출력에서는 명확한 이유 없이 다른 옵션으로 답변함
- 이는 기본적으로 OpenAI에 대한 큰 비판임. OpenAI는 추론 흔적을 숨기고 이를 정렬 목적으로 사용하는 데 큰 노력을 기울였음. Anthropic은 그들의 기계 해석 연구를 통해 이것이 정렬에 대한 신뢰할 수 있는 접근 방식이 아님을 입증했음
- 고도로 인간화된 언어의 사용은 항상 문제적임. 포토레지스터로 제어되는 야간 조명이 생각의 사슬을 가지고 있는가? 임계값에 대해 추론하는가? 빛과 어둠, 그 사이의 구분 역할에 대한 내부 모델을 가지고 있는가?
- 트랜지스터가 코드 실행을 의도적으로 할 수 있는가? 그렇다면 그것은 어디에서 유래하는가?
- 무언가가 자신이 인식하고 있다고 설득하면 그것은 인식하는 것임. 시뮬레이션된 계산은 계산 그 자체임. 영역이 지도임