Anthropic, LLM의 내부 작동 방식을 조정한 "금문교 Claude" 버전 공개

xguru · 2024-05-24T11:10:26+09:00

며칠 전 LLM의 내부 작동 방식을 해석하는 주요 연구 논문을 발표했음 Claude 3 Sonnet 모델의 "Mind"에서 관련 텍스트나 이미지를 읽을 때 활성화되는 수백만 개의 개념을 발견함 이러한 개념들을 "Feature"라고 부르며, 그 중 하나가 금문교(Golden Gate Bridge)의 컨셉임 클로드의 신경망에 샌프란시스코의 가장 유명한 랜드마크인 금문교를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있다는 것을 발견 이러한 특징들을 식별할 수 있을 뿐만 아니라, 그 활성화 강도를 조절하고 클로드의 행동에 상응하는 변화를 확인할 수 있음 "금문교" 피쳐의 강도를 높이면, 클로드의 응답은 직접적인 관련성이 없더라도 대부분의 질문에 금문교를 언급하기 시작함 $10를 어떻게 쓸 것인지 물으면, 금문교를 건너 통행료를 내는 데 사용할 것을 제안함 사랑 이야기를 써달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 기다리는 자동차에 대한 이야기를 들려줌 자신이 어떻게 생겼는지 상상하라고 하면, 금문교처럼 생겼다고 답함 Claude.ai에서 이 모델을 직접 체험할 수 있음 (Golden Gate 로고 클릭) 연구 데모용이므로 예상치 못한 반응이 있을 수 있음 클로드 내에서 이러한 특징들을 찾아 변경할 수 있다는 사실은 대규모 언어 모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 줌 이는 모델에게 말로 연기를 요청하거나, 클로드에게 다리인 척하라고 말하는 추가 텍스트를 모든 입력에 부착하는 새로운 "시스템 프롬프트"를 추가하는 것이 아님 또한 이전 블랙박스의 동작을 조정하는 새로운 블랙박스를 만들기 위해 추가 훈련 데이터를 사용하는 전통적인 "미세 조정(fine-tuning)"도 아님 이는 모델의 내부 활성화에서 가장 기본적인 측면 중 일부에 대한 정확하고 외과적인 변경임 논문에서 설명한 대로, 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 관련된 특징과 같은 안전 관련 특징의 강도를 변경하는 데에도 동일한 기술을 사용할 수 있음 추가 연구를 통해 이 작업이 AI 모델을 더 안전하게 만드는 데 도움이 될 수 있을 것으로 믿음

(anthropic.com)

19P by xguru 2024-05-24 | ★ favorite | 댓글 4개

며칠 전 LLM의 내부 작동 방식을 해석하는 주요 연구 논문을 발표했음
Claude 3 Sonnet 모델의 "Mind"에서 관련 텍스트나 이미지를 읽을 때 활성화되는 수백만 개의 개념을 발견함
이러한 개념들을 "Feature"라고 부르며, 그 중 하나가 금문교(Golden Gate Bridge)의 컨셉임
클로드의 신경망에 샌프란시스코의 가장 유명한 랜드마크인 금문교를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있다는 것을 발견
이러한 특징들을 식별할 수 있을 뿐만 아니라, 그 활성화 강도를 조절하고 클로드의 행동에 상응하는 변화를 확인할 수 있음
"금문교" 피쳐의 강도를 높이면, 클로드의 응답은 직접적인 관련성이 없더라도 대부분의 질문에 금문교를 언급하기 시작함
- $10를 어떻게 쓸 것인지 물으면, 금문교를 건너 통행료를 내는 데 사용할 것을 제안함
- 사랑 이야기를 써달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 기다리는 자동차에 대한 이야기를 들려줌
- 자신이 어떻게 생겼는지 상상하라고 하면, 금문교처럼 생겼다고 답함
Claude.ai에서 이 모델을 직접 체험할 수 있음 (Golden Gate 로고 클릭)
- 연구 데모용이므로 예상치 못한 반응이 있을 수 있음
클로드 내에서 이러한 특징들을 찾아 변경할 수 있다는 사실은 대규모 언어 모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 줌
이는 모델에게 말로 연기를 요청하거나, 클로드에게 다리인 척하라고 말하는 추가 텍스트를 모든 입력에 부착하는 새로운 "시스템 프롬프트"를 추가하는 것이 아님
또한 이전 블랙박스의 동작을 조정하는 새로운 블랙박스를 만들기 위해 추가 훈련 데이터를 사용하는 전통적인 "미세 조정(fine-tuning)"도 아님
이는 모델의 내부 활성화에서 가장 기본적인 측면 중 일부에 대한 정확하고 외과적인 변경임
논문에서 설명한 대로, 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 관련된 특징과 같은 안전 관련 특징의 강도를 변경하는 데에도 동일한 기술을 사용할 수 있음
추가 연구를 통해 이 작업이 AI 모델을 더 안전하게 만드는 데 도움이 될 수 있을 것으로 믿음