OpenAI의 새로운 연구 성과: GPT-4의 내부 표현을 해석 가능한 패턴으로 분해

(openai.com)

• OpenAI는 GPT-4의 내부 표현을 1600만 개의 해석 가능한 패턴으로 분해하는 새로운 확장 가능한 방법을 도입하여 언어 모델 내의 신경 활동을 이해하려고 합니다.

• 신경망은 직접 설계되지 않았고 식별 가능한 부분이 부족하기 때문에 해석하는 데 어려움이 있어 AI 안전성에 대한 추론이 어렵습니다.

• 희소 오토인코더를 사용하여 신경망에서 관련 "특징"을 식별하고, 인간이 이해하기 쉬운 개념을 나타냅니다.

• 연구팀은 첨단 방법론을 개발하여 최첨단 AI 모델에서 수천만 개의 특징으로 희소 오토인코더를 확장하여 부드럽고 예측 가능한 확장을 시연했습니다.

• 특정 특징에 대한 문서 활성화를 보여주는 시각화를 통해 특징의 해석 가능성을 보여줍니다.

• 해석 가능한 특징의 예로는 인간의 결함과 관련된 구문, 가격 상승 경향, "X와 Y" 형태의 구문, 머신 러닝 훈련 로그, 수사적/격양된 질문, 대수적 환, 아데노신 및 도파민 수용체가 있습니다.

• 해석 가능성이 모델의 신뢰성과 조정 가능성을 향상시킬 잠재력에 대해 연구팀은 흥분하고 있지만, 많은 발견된 특징을 해석하는 데 어려움이 있고 더 나은 검증 방법이 필요하다는 한계도 인식하고 있습니다.