19P by xguru 6달전 | favorite | 댓글 4개
  • 며칠 전 LLM의 내부 작동 방식을 해석하는 주요 연구 논문을 발표했음
  • Claude 3 Sonnet 모델의 "Mind"에서 관련 텍스트나 이미지를 읽을 때 활성화되는 수백만 개의 개념을 발견함
  • 이러한 개념들을 "Feature"라고 부르며, 그 중 하나가 금문교(Golden Gate Bridge)의 컨셉임
  • 클로드의 신경망에 샌프란시스코의 가장 유명한 랜드마크인 금문교를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합이 있다는 것을 발견
  • 이러한 특징들을 식별할 수 있을 뿐만 아니라, 그 활성화 강도를 조절하고 클로드의 행동에 상응하는 변화를 확인할 수 있음
  • "금문교" 피쳐의 강도를 높이면, 클로드의 응답은 직접적인 관련성이 없더라도 대부분의 질문에 금문교를 언급하기 시작
    • $10를 어떻게 쓸 것인지 물으면, 금문교를 건너 통행료를 내는 데 사용할 것을 제안함
    • 사랑 이야기를 써달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 기다리는 자동차에 대한 이야기를 들려줌
    • 자신이 어떻게 생겼는지 상상하라고 하면, 금문교처럼 생겼다고 답함
  • Claude.ai에서 이 모델을 직접 체험할 수 있음 (Golden Gate 로고 클릭)
    • 연구 데모용이므로 예상치 못한 반응이 있을 수 있음
  • 클로드 내에서 이러한 특징들을 찾아 변경할 수 있다는 사실은 대규모 언어 모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 줌
  • 이는 모델에게 말로 연기를 요청하거나, 클로드에게 다리인 척하라고 말하는 추가 텍스트를 모든 입력에 부착하는 새로운 "시스템 프롬프트"를 추가하는 것이 아님
  • 또한 이전 블랙박스의 동작을 조정하는 새로운 블랙박스를 만들기 위해 추가 훈련 데이터를 사용하는 전통적인 "미세 조정(fine-tuning)"도 아님
  • 이는 모델의 내부 활성화에서 가장 기본적인 측면 중 일부에 대한 정확하고 외과적인 변경임
  • 논문에서 설명한 대로, 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 관련된 특징과 같은 안전 관련 특징의 강도를 변경하는 데에도 동일한 기술을 사용할 수 있음
  • 추가 연구를 통해 이 작업이 AI 모델을 더 안전하게 만드는 데 도움이 될 수 있을 것으로 믿음

"금문교"무새가 되어서 한국 다리 물어보면, 금문교라고 알려주네요 🫢

마치 뇌의 특정 부위가 어떤 기능을 담당하는지 알아가는 느낌일까요..

뇌로 따지면 어떤 기능을 담당하는지 전기자극으로 뇌를 찔러보고 대충 감각적으로 지도를 그리는데, 해당 기능을 담당하는 뉴런조합을 정확히 특정할 수 있다는 느낌이네요