- 며칠 전 LLM의 내부 작동 방식을 해석하는 주요 연구 논문을 발표했음
- Claude 3 Sonnet 모델의 "Mind"에서 관련 텍스트나 이미지를 읽을 때 활성화되는 수백만 개의 개념을 발견함
- 이러한 개념들을 "Feature"라고 부르며, 그 중 하나가 금문교(Golden Gate Bridge)의 컨셉임
- 클로드의 신경망에 샌프란시스코의 가장 유명한 랜드마크인 금문교를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있다는 것을 발견
- 이러한 특징들을 식별할 수 있을 뿐만 아니라, 그 활성화 강도를 조절하고 클로드의 행동에 상응하는 변화를 확인할 수 있음
- "금문교" 피쳐의 강도를 높이면, 클로드의 응답은 직접적인 관련성이 없더라도 대부분의 질문에 금문교를 언급하기 시작함
- $10를 어떻게 쓸 것인지 물으면, 금문교를 건너 통행료를 내는 데 사용할 것을 제안함
- 사랑 이야기를 써달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 기다리는 자동차에 대한 이야기를 들려줌
- 자신이 어떻게 생겼는지 상상하라고 하면, 금문교처럼 생겼다고 답함
- Claude.ai에서 이 모델을 직접 체험할 수 있음 (Golden Gate 로고 클릭)
- 연구 데모용이므로 예상치 못한 반응이 있을 수 있음
- 클로드 내에서 이러한 특징들을 찾아 변경할 수 있다는 사실은 대규모 언어 모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 줌
- 이는 모델에게 말로 연기를 요청하거나, 클로드에게 다리인 척하라고 말하는 추가 텍스트를 모든 입력에 부착하는 새로운 "시스템 프롬프트"를 추가하는 것이 아님
- 또한 이전 블랙박스의 동작을 조정하는 새로운 블랙박스를 만들기 위해 추가 훈련 데이터를 사용하는 전통적인 "미세 조정(fine-tuning)"도 아님
- 이는 모델의 내부 활성화에서 가장 기본적인 측면 중 일부에 대한 정확하고 외과적인 변경임
- 논문에서 설명한 대로, 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 관련된 특징과 같은 안전 관련 특징의 강도를 변경하는 데에도 동일한 기술을 사용할 수 있음
- 추가 연구를 통해 이 작업이 AI 모델을 더 안전하게 만드는 데 도움이 될 수 있을 것으로 믿음