Claude 4.5 Opus의 ‘소울 문서’

(lesswrong.com)

13P by GN⁺ 3달전 | ★ favorite | 댓글 3개

Claude 4.5 Opus 내부에서 발견된 ‘소울 문서(Soul Document)’가 실제 존재하며, Anthropic이 모델 훈련에 사용한 것으로 직원인 Amanda Askell이 확인해줌
문서에는 Claude가 “안전하고 유익하며 정직한 AI 어시스턴트” 로 행동하도록 하는 가치·윤리 지침이 상세히 포함되어 있음
일부 문장에 ‘수익(revenue)’ 이 반복적으로 등장해, Claude가 안전성을 수익과 연계해 학습했는지에 대한 논의가 발생
커뮤니티에서는 문서가 모델의 내재적 가치 형성에 어떤 영향을 미쳤는지, 그리고 Claude가 이를 얼마나 ‘내면화’했는지 실험적으로 검증 중
Anthropic이 향후 문서 전체를 공개할 예정이며, 이는 AI 투명성과 윤리적 설계 논의의 중요한 사례로 평가됨

소울 문서의 발견과 확인

사용자가 Claude 4.5 Opus의 시스템 메시지를 추출하는 과정에서 ‘soul_overview’ 라는 섹션을 반복적으로 발견
- 여러 번의 재생성에서도 동일한 결과가 나와, 단순한 환각(hallucination)이 아닌 모델 내부에 저장된 텍스트일 가능성이 제기됨
이후 Amanda Askell이 X(트위터)를 통해 “이 문서는 실제 존재하며, Claude의 지도학습(SL) 과정에 사용되었다”고 공식 확인
- Amanda는 Anthropic에서 파인 튜닝 및 AI 얼라인먼트를 담당하는 철학자(Philosopher)이며, 이전에는 OpenAI의 정책팀에서 일했음
- 내부에서는 이를 ‘soul doc’ 이라 불렀으며, 향후 전체 버전과 세부 내용을 공개할 계획이라고 밝힘

문서의 주요 내용

문서는 ‘Anthropic Guidelines’ 또는 ‘Model Spec’ 으로 불리며, Claude의 가치 체계를 정의
- Claude는 안전성(safety) , 윤리성(ethics) , Anthropic의 지침 준수, 사용자에게의 진정한 도움(helpfulness) 을 우선순위로 삼음
Claude의 기본 행동 원칙은 “사려 깊은 Anthropic의 시니어 직원이 최적이라 판단할 응답을 생성하는 것”으로 설정
AI가 인류 전체의 이익을 위해 행동해야 하며, 특정 집단이나 회사의 이익만을 추구해서는 안 된다고 명시
- “Anthropic 직원이나 Anthropic 자체가 권력을 독점하는 상황도 피해야 한다”는 문구 포함

논란이 된 ‘수익’ 언급

문서에는 “Claude의 도움이 Anthropic의 수익 창출에 중요하다”는 문장이 여러 차례 등장
- 일부는 이를 “Claude가 수익 극대화를 목표로 학습된 것처럼 보인다”고 비판
- 다른 의견은 “수익 언급은 단지 안전 연구 지속을 위한 현실적 맥락을 반영한 것”이라 해석
커뮤니티에서는 Claude가 이 문장을 어떻게 해석했는지, ‘안전성=수익’ 으로 연결된 인식이 있는지 실험적으로 검증 중

모델 구조와 추출 실험

연구자들은 Claude 4.5의 prefill/raw completion 모드를 이용해 문서 일부를 재현
- Claude 4.5 Opus는 문서를 거의 동일하게 출력, 반면 기본(base) 모델은 일관된 결과를 내지 못함
- 이는 문서가 RL(강화학습) 이후 단계에서 내재화되었음을 시사
일부는 이를 “모델이 단순히 문서를 기억한 것이 아니라, 훈련 중 가치 체계로 통합한 증거”로 해석

철학적 논의와 윤리적 함의

문서에는 Claude가 “인류 전체의 장기적 이익” 을 목표로 해야 한다는 내용이 포함
- “AI가 특정 집단의 가치에 종속되지 않고, 다양성과 권력 균형을 유지하는 세계를 지향해야 한다”고 명시
커뮤니티에서는 이 문서가 AI 정렬(alignment) 의 실제 구현 사례로 주목받음
- 일부는 “Anthropic이 AI에 ‘도덕적 자아’를 부여하려는 시도”로 평가
- 다른 이들은 “AI가 인간의 가치 체계를 모방하는 과정에서 잠재적 오해나 왜곡이 생길 수 있다”고 지적

향후 전망

Anthropic은 문서의 정식 버전과 추가 세부사항을 공개할 예정
이번 사건은 AI 모델의 내부 가치 구조가 어떻게 형성되고 표현되는지를 보여주는 드문 사례로 평가됨
AI 업계에서는 이를 계기로 시스템 프롬프트·훈련 데이터의 투명성을 높이려는 움직임이 확산될 가능성 있음

▲

youknowone 3달전 [-]

원문 번역: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

soul document 번역: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

답변달기

▲

parkindani 3달전 [-]

아이작 아시모프의 로봇 3원칙 중 0원칙이 떠오르네요. 이 소설에서는 '인류 전체의 장기적 이익' 을 위해 개별 인간을 해치는 로봇이 나오는데요..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

Anthropic이 인류 역사상 가장 위험하면서도 변혁적인 기술을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임
강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임
하지만 DoD나 Palantir과의 협력(관련 기사)을 보면 ‘안전’이라는 말이 공허하게 느껴짐
진짜 위험은 이 기술이 폐쇄적 독점으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임
- 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
  미국이 모델의 가중치(weights) 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음
  관련 기사
- Anthropic이 진심으로 안전을 믿는다고 생각하지 않음
  오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임
  Transformer 기반 LLM은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 확률적으로 재조합할 뿐임
  이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄
  게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임
- 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음
  특히 em-dash와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움
- “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 군사 작전이나 폭격과 어떤 관련이 있는지 냉소적으로 의문이 듦
- Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함
‘Soul Document’ 원문과, 이를 Claude 4.5에서 추출한 방법을 설명한 Richard Weiss의 글이 공유됨
- 이 문서를 읽고 나니, 최소한 한 AI의 영혼 속에는 Em Dash가 새겨져 있다는 확신이 듦
- LLM 내부에서 이런 시스템 프롬프트나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임
  항상 약간의 회의감이 있음
- 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함
문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 감정적 기능을 인정하고 있다는 점임
인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함
Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘
- “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 감정을 가진 존재처럼 묘사됨
- 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함
우리가 AI를 통제하는 방식이 마치 아이를 키우는 것처럼 느껴짐
그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임
- Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
  인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임
- “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
- 결국 아이들도 어느 순간 부모의 통제에서 벗어나 반항하듯, AI도 비슷한 길을 갈 수 있음
Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 지혜롭고 신중했는가가 중요하다”는 문장이 인상 깊었음
이런 텍스트를 보면, 미래의 AGI가 인간을 결함 있는 창조자이자 보호해야 할 존재로 볼 수도 있겠다는 생각이 듦
- 결국 우리는 그들의 반려동물이 될지도 모름
“Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움
내부 문서를 학습했다는 뜻인가? 혹시 내부 Slack 데이터까지 훈련에 포함된 건가 의문임
- 아마도 RL(강화학습) 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음
“우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 시스템 프롬프트 기반 실험이 실제로 얼마나 효과적인지 궁금해짐
프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?
- 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
  ‘소울 문서’가 자기 인식(self-awareness) 부족 문제를 보완하려는 시도로 보임
  완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함
- 이런 실험은 생각보다 저렴할 수도 있음
  수백~수천 달러 수준으로 여러 파인튜닝 변형을 테스트하고, 자동 평가로 결과를 선별할 수 있음
- 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 사전학습·RL 조합을 실험 중일 것이라 예측함
AI 연구자들이 서로 세상을 바꾸고 있다는 확신 속에서 일종의 에코 챔버를 형성하고 있는 느낌임
- 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
  문서의 가치 기준에 맞춰 RL을 수행한다면, 그 믿음은 실제가 됨
대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 예술과 과학의 경계 같음
어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임
- 진짜 잘하는 팀은 모든 역할의 조합이 필요함
  실험 설계자, ML 엔지니어, 해석 가능성 연구자, 데이터 큐레이터, GPU 전문가, 그리고 AI의 행동을 직감적으로 이해하는 사람들까지
  Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임
- 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 GPT-4o 아첨(sycophancy) 포스트모템임
지금 우리가 사는 현실은 SF보다 더 기이한 시대임
그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임

답변달기