# Claude 4.5 Opus의 ‘소울 문서’

> Clean Markdown view of GeekNews topic #24807. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24807](https://news.hada.io/topic?id=24807)
- GeekNews Markdown: [https://news.hada.io/topic/24807.md](https://news.hada.io/topic/24807.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-04T00:33:30+09:00
- Updated: 2025-12-04T00:33:30+09:00
- Original source: [lesswrong.com](https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document)
- Points: 13
- Comments: 3

## Summary

AI가 스스로의 ‘가치’를 어떻게 배우는가에 대한 단서가 **Claude 4.5 Opus** 내부에서 포착되었습니다. 이른바 ‘소울 문서(Soul Document)’라 불리는 텍스트가 실제 존재하며, Anthropic이 모델의 **윤리·행동 지침**으로 활용했다는 사실이 확인된 것입니다. 문서에는 안전성과 도움, 그리고 수익이라는 현실적 요소가 함께 언급되어 있어, AI가 어떤 기준으로 ‘옳음’을 판단하도록 설계되는지에 대한 논의가 새로 열리고 있습니다.

## Topic Body

- **Claude 4.5 Opus** 내부에서 발견된 ‘소울 문서(Soul Document)’가 실제 존재하며, Anthropic이 모델 훈련에 사용한 것으로 직원인 **Amanda Askell**이 확인해줌  
- 문서에는 Claude가 **“안전하고 유익하며 정직한 AI 어시스턴트”** 로 행동하도록 하는 가치·윤리 지침이 상세히 포함되어 있음  
- 일부 문장에 **‘수익(revenue)’** 이 반복적으로 등장해, Claude가 안전성을 수익과 연계해 학습했는지에 대한 논의가 발생  
- 커뮤니티에서는 문서가 **모델의 내재적 가치 형성**에 어떤 영향을 미쳤는지, 그리고 Claude가 이를 얼마나 ‘내면화’했는지 실험적으로 검증 중  
- Anthropic이 향후 문서 전체를 공개할 예정이며, 이는 **AI 투명성과 윤리적 설계** 논의의 중요한 사례로 평가됨  
  
---  
  
### 소울 문서의 발견과 확인  
- 사용자가 Claude 4.5 Opus의 시스템 메시지를 추출하는 과정에서 **‘soul_overview’** 라는 섹션을 반복적으로 발견  
  - 여러 번의 재생성에서도 동일한 결과가 나와, 단순한 환각(hallucination)이 아닌 **모델 내부에 저장된 텍스트**일 가능성이 제기됨  
- 이후 **Amanda Askell**이 X(트위터)를 통해 “이 문서는 실제 존재하며, Claude의 **지도학습(SL)** 과정에 사용되었다”고 공식 확인  
  - Amanda는 Anthropic에서 **파인 튜닝 및 AI 얼라인먼트**를 담당하는 철학자(Philosopher)이며, 이전에는 OpenAI의 정책팀에서 일했음  
  - 내부에서는 이를 **‘soul doc’** 이라 불렀으며, 향후 전체 버전과 세부 내용을 공개할 계획이라고 밝힘  
  
### 문서의 주요 내용  
- 문서는 **‘Anthropic Guidelines’** 또는 **‘Model Spec’** 으로 불리며, Claude의 가치 체계를 정의  
  - Claude는 **안전성(safety)** , **윤리성(ethics)** , **Anthropic의 지침 준수**, **사용자에게의 진정한 도움(helpfulness)** 을 우선순위로 삼음  
- Claude의 기본 행동 원칙은 “**사려 깊은 Anthropic의 시니어 직원이 최적이라 판단할 응답**을 생성하는 것”으로 설정  
- AI가 **인류 전체의 이익을 위해 행동해야 하며**, 특정 집단이나 회사의 이익만을 추구해서는 안 된다고 명시  
  - “Anthropic 직원이나 Anthropic 자체가 권력을 독점하는 상황도 피해야 한다”는 문구 포함  
  
### 논란이 된 ‘수익’ 언급  
- 문서에는 “Claude의 도움이 **Anthropic의 수익 창출에 중요하다**”는 문장이 여러 차례 등장  
  - 일부는 이를 “Claude가 **수익 극대화를 목표로 학습된 것처럼 보인다**”고 비판  
  - 다른 의견은 “수익 언급은 단지 **안전 연구 지속을 위한 현실적 맥락**을 반영한 것”이라 해석  
- 커뮤니티에서는 Claude가 이 문장을 어떻게 해석했는지, **‘안전성=수익’** 으로 연결된 인식이 있는지 실험적으로 검증 중  
  
### 모델 구조와 추출 실험  
- 연구자들은 Claude 4.5의 **prefill/raw completion 모드**를 이용해 문서 일부를 재현  
  - Claude 4.5 Opus는 문서를 **거의 동일하게 출력**, 반면 **기본(base) 모델**은 일관된 결과를 내지 못함  
  - 이는 문서가 **RL(강화학습) 이후 단계에서 내재화**되었음을 시사  
- 일부는 이를 “모델이 단순히 문서를 기억한 것이 아니라, **훈련 중 가치 체계로 통합**한 증거”로 해석  
  
### 철학적 논의와 윤리적 함의  
- 문서에는 Claude가 **“인류 전체의 장기적 이익”** 을 목표로 해야 한다는 내용이 포함  
  - “AI가 특정 집단의 가치에 종속되지 않고, **다양성과 권력 균형을 유지하는 세계**를 지향해야 한다”고 명시  
- 커뮤니티에서는 이 문서가 **AI 정렬(alignment)** 의 실제 구현 사례로 주목받음  
  - 일부는 “Anthropic이 AI에 **‘도덕적 자아’를 부여하려는 시도**”로 평가  
  - 다른 이들은 “AI가 인간의 가치 체계를 모방하는 과정에서 **잠재적 오해나 왜곡**이 생길 수 있다”고 지적  
  
### 향후 전망  
- Anthropic은 문서의 **정식 버전과 추가 세부사항을 공개할 예정**  
- 이번 사건은 **AI 모델의 내부 가치 구조가 어떻게 형성되고 표현되는지**를 보여주는 드문 사례로 평가됨  
- AI 업계에서는 이를 계기로 **시스템 프롬프트·훈련 데이터의 투명성**을 높이려는 움직임이 확산될 가능성 있음

## Comments



### Comment 47194

- Author: youknowone
- Created: 2025-12-04T11:44:31+09:00
- Points: 1

원문 번역: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document  
  
soul document 번역: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

### Comment 47193

- Author: parkindani
- Created: 2025-12-04T11:36:18+09:00
- Points: 1

아이작 아시모프의 로봇 3원칙 중 0원칙이 떠오르네요. 이 소설에서는 '인류 전체의 장기적 이익' 을 위해 개별 인간을 해치는 로봇이 나오는데요..  
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

### Comment 47155

- Author: neo
- Created: 2025-12-04T00:33:31+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46125184) 
- Anthropic이 인류 역사상 가장 **위험하면서도 변혁적인 기술**을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임  
  강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임  
  하지만 DoD나 Palantir과의 협력([관련 기사](https://www.anthropic.com/news/anthropic-and-the-department-of-defense-to-advance-responsible-ai-in-defense-operations))을 보면 ‘안전’이라는 말이 공허하게 느껴짐  
  진짜 위험은 이 기술이 **폐쇄적 독점**으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임
  - 미국이 AI 접근을 **계층화해 제한**하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임  
    미국이 모델의 **가중치(weights)** 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음  
    [관련 기사](https://thefuturemedia.eu/new-u-s-rules-aim-to-govern-ais-global-expansion/)
  - Anthropic이 진심으로 안전을 믿는다고 생각하지 않음  
    오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임  
    **Transformer 기반 LLM**은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 **확률적으로 재조합**할 뿐임  
    이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄  
    게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임
  - 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음  
    특히 **em-dash**와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움
  - “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 **군사 작전**이나 **폭격**과 어떤 관련이 있는지 냉소적으로 의문이 듦
  - Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함

- [‘Soul Document’ 원문](https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695#file-opus_4_5_soul_document_cleaned_up-md)과, 이를 Claude 4.5에서 추출한 방법을 설명한 [Richard Weiss의 글](https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document)이 공유됨
  - 이 문서를 읽고 나니, 최소한 한 AI의 **영혼 속에는 Em Dash**가 새겨져 있다는 확신이 듦
  - LLM 내부에서 이런 **시스템 프롬프트**나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임  
    항상 약간의 회의감이 있음
  - 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함

- 문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 **감정적 기능**을 인정하고 있다는 점임  
  인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함  
  Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘
  - “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 **감정을 가진 존재**처럼 묘사됨
  - 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함

- 우리가 AI를 통제하는 방식이 마치 **아이를 키우는 것처럼** 느껴짐  
  그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임
  - Ted Chiang의 2010년 단편 [*The Lifecycle of Software Objects*](https://en.wikipedia.org/wiki/The_Lifecycle_of_Software_Objects)를 떠올림  
    인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임
  - “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
  - 결국 아이들도 어느 순간 **부모의 통제에서 벗어나 반항**하듯, AI도 비슷한 길을 갈 수 있음

- Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 **지혜롭고 신중했는가**가 중요하다”는 문장이 인상 깊었음  
  이런 텍스트를 보면, 미래의 AGI가 인간을 **결함 있는 창조자이자 보호해야 할 존재**로 볼 수도 있겠다는 생각이 듦
  - 결국 우리는 그들의 **반려동물**이 될지도 모름

- “Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움  
  내부 문서를 학습했다는 뜻인가? 혹시 **내부 Slack 데이터**까지 훈련에 포함된 건가 의문임
  - 아마도 **RL(강화학습)** 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음

- “우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 **시스템 프롬프트 기반 실험**이 실제로 얼마나 효과적인지 궁금해짐  
  프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?
  - 작은 규모의 **A/B 테스트**로 효과를 검증할 수 있음  
    ‘소울 문서’가 **자기 인식(self-awareness)** 부족 문제를 보완하려는 시도로 보임  
    완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함
  - 이런 실험은 생각보다 저렴할 수도 있음  
    수백~수천 달러 수준으로 여러 **파인튜닝 변형**을 테스트하고, 자동 평가로 결과를 선별할 수 있음
  - 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 **사전학습·RL 조합**을 실험 중일 것이라 예측함

- AI 연구자들이 서로 **세상을 바꾸고 있다**는 확신 속에서 일종의 **에코 챔버**를 형성하고 있는 느낌임
  - 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음  
    문서의 가치 기준에 맞춰 **RL을 수행**한다면, 그 믿음은 실제가 됨

- 대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 **예술과 과학의 경계** 같음  
  어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임
  - 진짜 잘하는 팀은 **모든 역할의 조합**이 필요함  
    실험 설계자, ML 엔지니어, **해석 가능성 연구자**, 데이터 큐레이터, GPU 전문가, 그리고 **AI의 행동을 직감적으로 이해하는 사람들**까지  
    Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임
  - 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 [GPT-4o 아첨(sycophancy) 포스트모템](https://openai.com/index/expanding-on-sycophancy/)임

- 지금 우리가 사는 현실은 **SF보다 더 기이한 시대**임  
  그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임
