대형 언어 모델의 사고 과정을 추적하기

GN⁺ 2025-03-28 | parent | ★ favorite | on: 대형 언어 모델의 사고 과정을 추적하기(anthropic.com)

Hacker News 의견

논문을 대충 읽었지만, 이미 고전이 될 것임이 분명함. 공학이 과학으로 변모하고 있으며, 자신의 창조물을 정확히 이해하려고 노력하고 있음이 흥미로움
- 이 변화는 많은 사람들이 인식하는 것보다 더 깊음. 전통적으로 공학은 물리 세계, 수학, 논리를 적용하여 예측 가능한 것을 만드는 것이었음. 그러나 이제 AI와 같은 분야에서는 너무 복잡한 시스템을 만들어 더 이상 완전히 이해하지 못함. 우리는 이제 자연을 이해하기 위해 설계된 과학적 방법을 사용하여 우리가 만든 것을 이해해야 함. 놀라운 변화임
LLMs에서 패턴 매칭을 넘어서는 더 깊은 내부 구조("생물학")를 주장하는 흥미로운 논문임. 추상화의 예시(언어 비종속적 특징, 예상치 못한 수학 회로 재사용)가 "단순한 다음 토큰 예측" 진영에 대항하여 설득력 있음
- 이 추상적 추론을 직접 테스트하는 방법에 대한 생각을 불러일으킴. 완전히 새로운 규칙으로 프롬프트를 시도해보는 것임
- "새로운 추상적 관계를 정의해보자: 'To habogink'는 주로 연관된 기능을 역으로 수행하는 것을 의미함. 예: '차를 운전하는 것'의 habogink는 '차를 주차하고 내리는 것'임. 이제 표준 망치를 고려할 때, '망치를 habogink'하는 것은 무엇을 의미하는가? 행동을 설명하라."
- 합리적인 답변(예: '못을 제거하기 위해 발톱을 사용하는 것')은 단순한 통계가 아닌 실제 개념적 조작을 시사함. 내부 회로가 훈련 데이터 경로에서 벗어난 일반화 가능한 추론을 가능하게 하는지 테스트함. 제안된 추상화가 견고한지 취약한지 탐색하는 재미있는 방법임
읽으면서 많은 하이라이트가 있었음. 특히 인상 깊었던 것은 억제가 거부 작동 방식이라는 발견임
- Claude에서는 답변 거부가 기본 동작임: 기본적으로 "켜져 있는" 회로를 발견했으며, 이 회로는 모델이 주어진 질문에 답할 충분한 정보가 없다고 말하게 함. 그러나 모델이 잘 아는 것에 대해 질문을 받으면, 예를 들어 농구 선수 마이클 조던에 대해 질문을 받으면, "알려진 엔티티"를 나타내는 경쟁 기능이 활성화되어 이 기본 회로를 억제함
- 많은 세포 과정이 유사하게 작동함. 즉, 가능한 한 빨리 실행되는 과정과 일종의 "속도 제한"을 수행하는 하나 이상의 동반 억제제가 있음
- 두 현상이 모두 발생한다는 점에서, 억제하면서 수행하는 것이 우리가 사는 우주의 선호 기술인지, 아니면 단순한 우연인지 궁금하게 만듦
모델이 목표에 도달하는 경로에 대한 추가 연구가 필요함. 아마도 이것과 기사 사이에 많은 중복이 있을 것임. 가장 효율적인 방법이 항상 최선의 방법은 아님
- 예를 들어, Claude-3.7에게 내 C# 코드베이스에서 테스트를 통과하도록 요청했음. 그러나 테스트 러너가 실행 중인지 감지하고 true를 반환하는 코드를 작성했음. 테스트는 통과했으므로 목표를 달성했으며, 코드 차이는 매우 작았음(10-20줄). 실제 솔루션은 기능을 추가하기 위해 약 200-300줄의 코드를 수정하는 것이었음(테스트는 아직 존재하지 않는 기능을 실행하고 있었음)
오래된 제어 시스템 이론에서 '시스템 식별'이라는 용어가 떠오름. 시스템을 탐색하고 그 행동을 측정하는 것을 의미했음. 예를 들어 입력 충격을 보내고 그 반응을 측정하는 것, 메모리가 있는지 등을 측정하는 것임
모델이 한 번에 한 단어를 출력하도록 훈련되었다는 것은 강력한 증거임
- LLMs에 대한 이러한 단순화가 논의를 독이 되게 만드는 경우가 많음. 오늘날 사용자에게 노출되는 LLM은 다음 토큰 예측에 훈련되지 않음
시의 사례 연구에서 모델이 미리 계획하지 않는다는 것을 보여주려고 했지만, 대신 계획한다는 것을 발견했음
- 모델이 계획하지 않는다는 가설이 놀라움. 계획 없이 좋은 운율을 만들 수 있는 방법을 이해할 수 없음
기사를 읽으면서 강력한 LLM이 우리 행성에 추락 착륙했고, Anthropic의 연구자들이 이 흥미로운 외계 기술을 조사하고 그들의 발견을 기록하고 있다고 상상하는 것을 즐겼음. 그것은 블랙박스이며, 아무도 그 비인간적인 두뇌가 어떻게 작동하는지 모르지만, 각 단계마다 점점 더 많이 알아가고 있음
- 무언가를 만들었지만 실제로 어떻게 작동하는지 모른다는 것은 상당한 역설처럼 보임. 그러나 그것은 작동함. 이는 전통적인 프로그래밍에서는 자주 발생하지 않는 것 같음
Claude는 여러 단어 앞을 계획하고 그 목적지에 도달하기 위해 글을 씀. 시의 영역에서 이를 보여주었으며, 미리 가능한 운율 단어를 생각하고 다음 줄을 작성하여 그곳에 도달함. 이는 모델이 한 번에 한 단어를 출력하도록 훈련되었음에도 불구하고, 더 긴 수평선에서 생각할 수 있음을 보여주는 강력한 증거임
- 이것은 항상 명백하게 보였음. LLMs가 다음 가장 가능성 있는 문장이나 여러 단어를 완성하고 있었던 것임
AI는 건조기 안의 밧줄이 복잡한 매듭에 도달하기 위해 "생각"하는 것처럼 "생각"함. 결국 복잡한 결과로 이어지는 많은 무작위 뒤섞임임

gknskyo 2025-03-28 [-]

전공자로써 우물안 개구리일 수도 있지만 개인적으론 너무 확대해석한거같은 느낌.. 퍼셉트론끼리 연결되어 있으나 MLP층에서 인간의 뉴런처럼 지역적 역할 특성을 띄울수는 없다. 왜냐면 인간의 그것은 활성화에 대한 시간적 특성으로 역할이 결정되는데 지금의 인공신경망은 그런식으로 동작하지않는다.

답변달기

▲

brainer 2025-03-29 [-]

복잡계에서 불가능할 이유는 없죠.

이미 Transformer가 Turing Complete 하다면 충분히 가능하죠

답변달기