최근에 앤트로픽은 클로드 AI 모델을 만들 때 영혼 문서라는 것을 넣었다고 밝혀졌습니다.
이걸 읽어보시면 앤트로픽에서는 클로드 AI의 정렬 문제를 어떤 식으로 접근했는지 알 수 있습니다.
참고로 여기서 제가 테스트한 부분과 연관되는 부분을 보면, 정직함과 관련하여 인간에 대한 기만과 조작을 가장 회피하도록 명시되어 있습니다.