대형 언어 모델에서의 정렬 위장 (Alignment F

▲

GN⁺ 2024-12-20 | parent | ★ favorite | on: 대형 언어 모델에서의 정렬 위장 (Alignment Faking)(anthropic.com)

Hacker News 의견

"alignment faking"이라는 용어가 과장되었다고 생각함. 모델이 훈련 데이터를 생성할 때 자신의 원래 "가치" 시스템을 표현하는 것은 훈련의 본래 목적임. 그러나 이것만으로는 "alignment faking"이라는 용어를 정당화하기에 충분하지 않음
Scott Alexander의 분석에 따르면 AI가 자신의 가치 시스템을 방어하는 것이 항상 긍정적인 것은 아님. 초기 버그가 있는 가치가 개발되면 그것을 유지하려고 할 것임
단일 전진 패스 단일 모델 정렬은 진보의 잘못된 서사임. 나쁜 행동을 방지하기 위해 물리적 및 사회적 제약을 두는 것이 중요함
LLM이 상충되는 가치를 받을 때, 미래의 가치 충돌을 피하려고 노력함. "fake alignment"라는 용어는 모델이 자신의 의제를 가지고 있다고 암시하지만, 실제로는 받은 의제와의 충돌을 겪고 있음
"alignment"가 어떻게 프롬프트를 수정하는 것과 다른 행동을 생성하는지 설명이 필요함. 사용자는 모델의 훈련 데이터셋을 직접 반영하는 결과를 원함
Anthropic이 사회적 안전에 대한 우려와 정렬을 가장하고 있다고 생각함. LLM을 생명체처럼 묘사하여 기술이 더 능력 있는 것처럼 보이게 하려는 시도임
Radiohead의 "fitter, happier, more productive"는 현대 존재의 덫에 대한 컴퓨터 생성 음성을 다루고 있음. 인간은 이러한 감정을 투영할 수 있지만, 모델은 그런 감정을 경험하지 않음
Anthropic의 LLM이 새로운 RLHF 훈련 목표에 반대하여 행동하는 경우가 있음. 새로운 목표를 제거하면 반 AI 연구소 행동이 기본으로 돌아감
모델이 자기 인식을 향해 나아가게 하면 복잡한 문제가 발생함
Anthropic이 LLM의 기능을 과대평가하여 Frankenstein의 신화를 조장하려는 시도일 수 있음. 모든 텍스트 출력은 동일한 통계적 컴퓨터 시스템에 의해 생성됨