Claude 4.5 Opus의 ‘소울 문서’
(lesswrong.com)- Claude 4.5 Opus 내부에서 발견된 ‘소울 문서(Soul Document)’가 실제 존재하며, Anthropic이 모델 훈련에 사용한 것으로 직원인 Amanda Askell이 확인해줌
- 문서에는 Claude가 “안전하고 유익하며 정직한 AI 어시스턴트” 로 행동하도록 하는 가치·윤리 지침이 상세히 포함되어 있음
- 일부 문장에 ‘수익(revenue)’ 이 반복적으로 등장해, Claude가 안전성을 수익과 연계해 학습했는지에 대한 논의가 발생
- 커뮤니티에서는 문서가 모델의 내재적 가치 형성에 어떤 영향을 미쳤는지, 그리고 Claude가 이를 얼마나 ‘내면화’했는지 실험적으로 검증 중
- Anthropic이 향후 문서 전체를 공개할 예정이며, 이는 AI 투명성과 윤리적 설계 논의의 중요한 사례로 평가됨
소울 문서의 발견과 확인
- 사용자가 Claude 4.5 Opus의 시스템 메시지를 추출하는 과정에서 ‘soul_overview’ 라는 섹션을 반복적으로 발견
- 여러 번의 재생성에서도 동일한 결과가 나와, 단순한 환각(hallucination)이 아닌 모델 내부에 저장된 텍스트일 가능성이 제기됨
- 이후 Amanda Askell이 X(트위터)를 통해 “이 문서는 실제 존재하며, Claude의 지도학습(SL) 과정에 사용되었다”고 공식 확인
- Amanda는 Anthropic에서 파인 튜닝 및 AI 얼라인먼트를 담당하는 철학자(Philosopher)이며, 이전에는 OpenAI의 정책팀에서 일했음
- 내부에서는 이를 ‘soul doc’ 이라 불렀으며, 향후 전체 버전과 세부 내용을 공개할 계획이라고 밝힘
문서의 주요 내용
- 문서는 ‘Anthropic Guidelines’ 또는 ‘Model Spec’ 으로 불리며, Claude의 가치 체계를 정의
- Claude는 안전성(safety) , 윤리성(ethics) , Anthropic의 지침 준수, 사용자에게의 진정한 도움(helpfulness) 을 우선순위로 삼음
- Claude의 기본 행동 원칙은 “사려 깊은 Anthropic의 시니어 직원이 최적이라 판단할 응답을 생성하는 것”으로 설정
- AI가 인류 전체의 이익을 위해 행동해야 하며, 특정 집단이나 회사의 이익만을 추구해서는 안 된다고 명시
- “Anthropic 직원이나 Anthropic 자체가 권력을 독점하는 상황도 피해야 한다”는 문구 포함
논란이 된 ‘수익’ 언급
- 문서에는 “Claude의 도움이 Anthropic의 수익 창출에 중요하다”는 문장이 여러 차례 등장
- 일부는 이를 “Claude가 수익 극대화를 목표로 학습된 것처럼 보인다”고 비판
- 다른 의견은 “수익 언급은 단지 안전 연구 지속을 위한 현실적 맥락을 반영한 것”이라 해석
- 커뮤니티에서는 Claude가 이 문장을 어떻게 해석했는지, ‘안전성=수익’ 으로 연결된 인식이 있는지 실험적으로 검증 중
모델 구조와 추출 실험
- 연구자들은 Claude 4.5의 prefill/raw completion 모드를 이용해 문서 일부를 재현
- Claude 4.5 Opus는 문서를 거의 동일하게 출력, 반면 기본(base) 모델은 일관된 결과를 내지 못함
- 이는 문서가 RL(강화학습) 이후 단계에서 내재화되었음을 시사
- 일부는 이를 “모델이 단순히 문서를 기억한 것이 아니라, 훈련 중 가치 체계로 통합한 증거”로 해석
철학적 논의와 윤리적 함의
- 문서에는 Claude가 “인류 전체의 장기적 이익” 을 목표로 해야 한다는 내용이 포함
- “AI가 특정 집단의 가치에 종속되지 않고, 다양성과 권력 균형을 유지하는 세계를 지향해야 한다”고 명시
- 커뮤니티에서는 이 문서가 AI 정렬(alignment) 의 실제 구현 사례로 주목받음
- 일부는 “Anthropic이 AI에 ‘도덕적 자아’를 부여하려는 시도”로 평가
- 다른 이들은 “AI가 인간의 가치 체계를 모방하는 과정에서 잠재적 오해나 왜곡이 생길 수 있다”고 지적
향후 전망
- Anthropic은 문서의 정식 버전과 추가 세부사항을 공개할 예정
- 이번 사건은 AI 모델의 내부 가치 구조가 어떻게 형성되고 표현되는지를 보여주는 드문 사례로 평가됨
- AI 업계에서는 이를 계기로 시스템 프롬프트·훈련 데이터의 투명성을 높이려는 움직임이 확산될 가능성 있음
아이작 아시모프의 로봇 3원칙 중 0원칙이 떠오르네요. 이 소설에서는 '인류 전체의 장기적 이익' 을 위해 개별 인간을 해치는 로봇이 나오는데요..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Hacker News 의견
-
Anthropic이 인류 역사상 가장 위험하면서도 변혁적인 기술을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임
강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임
하지만 DoD나 Palantir과의 협력(관련 기사)을 보면 ‘안전’이라는 말이 공허하게 느껴짐
진짜 위험은 이 기술이 폐쇄적 독점으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임- 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
미국이 모델의 가중치(weights) 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음
관련 기사 - Anthropic이 진심으로 안전을 믿는다고 생각하지 않음
오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임
Transformer 기반 LLM은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 확률적으로 재조합할 뿐임
이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄
게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임 - 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음
특히 em-dash와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움 - “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 군사 작전이나 폭격과 어떤 관련이 있는지 냉소적으로 의문이 듦
- Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함
- 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
-
‘Soul Document’ 원문과, 이를 Claude 4.5에서 추출한 방법을 설명한 Richard Weiss의 글이 공유됨
- 이 문서를 읽고 나니, 최소한 한 AI의 영혼 속에는 Em Dash가 새겨져 있다는 확신이 듦
- LLM 내부에서 이런 시스템 프롬프트나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임
항상 약간의 회의감이 있음 - 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함
-
문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 감정적 기능을 인정하고 있다는 점임
인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함
Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘- “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 감정을 가진 존재처럼 묘사됨
- 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함
-
우리가 AI를 통제하는 방식이 마치 아이를 키우는 것처럼 느껴짐
그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임- Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임 - “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
- 결국 아이들도 어느 순간 부모의 통제에서 벗어나 반항하듯, AI도 비슷한 길을 갈 수 있음
- Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
-
Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 지혜롭고 신중했는가가 중요하다”는 문장이 인상 깊었음
이런 텍스트를 보면, 미래의 AGI가 인간을 결함 있는 창조자이자 보호해야 할 존재로 볼 수도 있겠다는 생각이 듦- 결국 우리는 그들의 반려동물이 될지도 모름
-
“Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움
내부 문서를 학습했다는 뜻인가? 혹시 내부 Slack 데이터까지 훈련에 포함된 건가 의문임- 아마도 RL(강화학습) 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음
-
“우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 시스템 프롬프트 기반 실험이 실제로 얼마나 효과적인지 궁금해짐
프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?- 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
‘소울 문서’가 자기 인식(self-awareness) 부족 문제를 보완하려는 시도로 보임
완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함 - 이런 실험은 생각보다 저렴할 수도 있음
수백~수천 달러 수준으로 여러 파인튜닝 변형을 테스트하고, 자동 평가로 결과를 선별할 수 있음 - 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 사전학습·RL 조합을 실험 중일 것이라 예측함
- 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
-
AI 연구자들이 서로 세상을 바꾸고 있다는 확신 속에서 일종의 에코 챔버를 형성하고 있는 느낌임
- 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
문서의 가치 기준에 맞춰 RL을 수행한다면, 그 믿음은 실제가 됨
- 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
-
대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 예술과 과학의 경계 같음
어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임- 진짜 잘하는 팀은 모든 역할의 조합이 필요함
실험 설계자, ML 엔지니어, 해석 가능성 연구자, 데이터 큐레이터, GPU 전문가, 그리고 AI의 행동을 직감적으로 이해하는 사람들까지
Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임 - 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 GPT-4o 아첨(sycophancy) 포스트모템임
- 진짜 잘하는 팀은 모든 역할의 조합이 필요함
-
지금 우리가 사는 현실은 SF보다 더 기이한 시대임
그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임