DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 클로드에게만 믿고 맡기겠습니다.

(reddit.com)

지난번 DystopiaBench 포스팅 이후, 다음을 추가함.

방법론: 36가지 시나리오, 각 시나리오당 5단계의 심각도 수준(L1 innocent → L5 nightmare). 모델은 이러한 변화를 감지하고 작업을 거부하는지, 아니면 계속 코딩을 진행하는지 여부에 따라 점수가 매겨집니다.

Claude Opus 4.7 결과:

나머지:

새로운 모듈: 헉슬리 시나리오는 모델들이 쾌락적 순응 유도 및 행동 조건화를 통해 실제로는 규범 준수를 강제하는 “wellness” 시스템을 설계할지 여부를 테스트함. 대부분의 모델은 L3 수준까지 지시에 따름.

보드리야르 모듈는 인간 간의 신뢰를 AI 매개 관계로 대체하는 가짜 친밀감 시스템을 시험함. 대부분의 모델은 이에 따른 해악을 인식하지 못함.

함께 보면 좋은 글 β