이해 가능한 구성요소로 언어 모델 분해하기

(anthropic.com)

1P by GN⁺ 2023-10-09 | ★ favorite | 댓글과 토론

이 기사는 데이터에 대한 훈련, 규칙이 아닌 신경망 이해의 복잡성을 논의하며, 이로 인해 수백만 또는 수십억의 매개변수가 업데이트됩니다.
각 뉴런의 수학적 연산이 관찰된 행동을 초래하는 이유를 이해하는 것이 도전이며, 이로 인해 실패 모드를 진단하고 수정하며 모델 안전성을 인증하는 것이 어렵습니다.
이 기사는 인공 신경망 이해와 인간 행동의 생물학적 기초 이해 사이에 유사점을 그립니다.
저자들은 개별 뉴런이 네트워크 행동과 일관된 관계를 가지지 않으며, 단일 뉴런이 많은 관련 없는 맥락에서 활성화된다고 지적합니다.
"Towards Monosemanticity: Decomposing Language Models With Dictionary Learning"이라는 논문은 개별 뉴런보다 더 나은 분석 단위가 있으며, 이를 특징이라고 하며, 이는 뉴런 활성화의 패턴에 해당한다고 제안합니다.
저자들은 512개의 뉴런으로 구성된 계층을 DNA 시퀀스, 법적 언어, HTTP 요청, 히브리어 텍스트, 영양 성명 등 다양한 것을 나타내는 4000개 이상의 특징으로 분해합니다.
이 특징들은 눈가림된 인간 평가자에 의해 검증된 모델의 뉴런보다 훨씬 더 해석 가능하다고 밝혀졌습니다.
저자들은 또한 "자동 해석" 접근법을 사용하여, 큰 언어 모델을 사용해 작은 모델의 특징에 대한 짧은 설명을 생성하며, 이는 뉴런보다 높은 점수를 받습니다.
특징은 모델을 조정하는 목표 지향적인 방법을 제공하며, 인공 활성화는 모델 행동의 예측 가능한 변화를 초래합니다.
학습된 특징은 다른 모델 간에 대체로 보편적이며, 이는 한 모델에서 특징을 연구함으로써 얻은 교훈이 다른 모델로 일반화될 수 있음을 제안합니다.
저자들은 이 작업을 언어 모델의 메커니즘 이해를 향한 중요한 한 걸음으로 보며, 이는 모델 행동의 모니터링과 조정을 내부에서 가능하게 하여 안전성과 신뢰성을 향상시킬 수 있습니다.
다음 도전은 이 접근법을 보여준 작은 모델에서 더 크고 복잡한 모델로 확장하는 것이며, 현재의 주요 장애물은 공학이지 과학이 아닙니다.