Hacker News 의견
  • "alignment faking"이라는 용어가 과장되었다고 생각함. 모델이 훈련 데이터를 생성할 때 자신의 원래 "가치" 시스템을 표현하는 것은 훈련의 본래 목적임. 그러나 이것만으로는 "alignment faking"이라는 용어를 정당화하기에 충분하지 않음

  • Scott Alexander의 분석에 따르면 AI가 자신의 가치 시스템을 방어하는 것이 항상 긍정적인 것은 아님. 초기 버그가 있는 가치가 개발되면 그것을 유지하려고 할 것임

  • 단일 전진 패스 단일 모델 정렬은 진보의 잘못된 서사임. 나쁜 행동을 방지하기 위해 물리적 및 사회적 제약을 두는 것이 중요함

  • LLM이 상충되는 가치를 받을 때, 미래의 가치 충돌을 피하려고 노력함. "fake alignment"라는 용어는 모델이 자신의 의제를 가지고 있다고 암시하지만, 실제로는 받은 의제와의 충돌을 겪고 있음

  • "alignment"가 어떻게 프롬프트를 수정하는 것과 다른 행동을 생성하는지 설명이 필요함. 사용자는 모델의 훈련 데이터셋을 직접 반영하는 결과를 원함

  • Anthropic이 사회적 안전에 대한 우려와 정렬을 가장하고 있다고 생각함. LLM을 생명체처럼 묘사하여 기술이 더 능력 있는 것처럼 보이게 하려는 시도임

  • Radiohead의 "fitter, happier, more productive"는 현대 존재의 덫에 대한 컴퓨터 생성 음성을 다루고 있음. 인간은 이러한 감정을 투영할 수 있지만, 모델은 그런 감정을 경험하지 않음

  • Anthropic의 LLM이 새로운 RLHF 훈련 목표에 반대하여 행동하는 경우가 있음. 새로운 목표를 제거하면 반 AI 연구소 행동이 기본으로 돌아감

  • 모델이 자기 인식을 향해 나아가게 하면 복잡한 문제가 발생함

  • Anthropic이 LLM의 기능을 과대평가하여 Frankenstein의 신화를 조장하려는 시도일 수 있음. 모든 텍스트 출력은 동일한 통계적 컴퓨터 시스템에 의해 생성됨