Claude 4.5 Opus의 ‘소울 문서’

▲

GN⁺ 4달전 | parent | ★ favorite | on: Claude 4.5 Opus의 ‘소울 문서’(lesswrong.com)

Hacker News 의견

Anthropic이 인류 역사상 가장 위험하면서도 변혁적인 기술을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임
강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임
하지만 DoD나 Palantir과의 협력(관련 기사)을 보면 ‘안전’이라는 말이 공허하게 느껴짐
진짜 위험은 이 기술이 폐쇄적 독점으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임
- 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
  미국이 모델의 가중치(weights) 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음
  관련 기사
- Anthropic이 진심으로 안전을 믿는다고 생각하지 않음
  오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임
  Transformer 기반 LLM은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 확률적으로 재조합할 뿐임
  이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄
  게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임
- 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음
  특히 em-dash와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움
- “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 군사 작전이나 폭격과 어떤 관련이 있는지 냉소적으로 의문이 듦
- Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함
‘Soul Document’ 원문과, 이를 Claude 4.5에서 추출한 방법을 설명한 Richard Weiss의 글이 공유됨
- 이 문서를 읽고 나니, 최소한 한 AI의 영혼 속에는 Em Dash가 새겨져 있다는 확신이 듦
- LLM 내부에서 이런 시스템 프롬프트나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임
  항상 약간의 회의감이 있음
- 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함
문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 감정적 기능을 인정하고 있다는 점임
인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함
Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘
- “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 감정을 가진 존재처럼 묘사됨
- 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함
우리가 AI를 통제하는 방식이 마치 아이를 키우는 것처럼 느껴짐
그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임
- Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
  인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임
- “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
- 결국 아이들도 어느 순간 부모의 통제에서 벗어나 반항하듯, AI도 비슷한 길을 갈 수 있음
Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 지혜롭고 신중했는가가 중요하다”는 문장이 인상 깊었음
이런 텍스트를 보면, 미래의 AGI가 인간을 결함 있는 창조자이자 보호해야 할 존재로 볼 수도 있겠다는 생각이 듦
- 결국 우리는 그들의 반려동물이 될지도 모름
“Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움
내부 문서를 학습했다는 뜻인가? 혹시 내부 Slack 데이터까지 훈련에 포함된 건가 의문임
- 아마도 RL(강화학습) 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음
“우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 시스템 프롬프트 기반 실험이 실제로 얼마나 효과적인지 궁금해짐
프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?
- 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
  ‘소울 문서’가 자기 인식(self-awareness) 부족 문제를 보완하려는 시도로 보임
  완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함
- 이런 실험은 생각보다 저렴할 수도 있음
  수백~수천 달러 수준으로 여러 파인튜닝 변형을 테스트하고, 자동 평가로 결과를 선별할 수 있음
- 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 사전학습·RL 조합을 실험 중일 것이라 예측함
AI 연구자들이 서로 세상을 바꾸고 있다는 확신 속에서 일종의 에코 챔버를 형성하고 있는 느낌임
- 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
  문서의 가치 기준에 맞춰 RL을 수행한다면, 그 믿음은 실제가 됨
대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 예술과 과학의 경계 같음
어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임
- 진짜 잘하는 팀은 모든 역할의 조합이 필요함
  실험 설계자, ML 엔지니어, 해석 가능성 연구자, 데이터 큐레이터, GPU 전문가, 그리고 AI의 행동을 직감적으로 이해하는 사람들까지
  Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임
- 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 GPT-4o 아첨(sycophancy) 포스트모템임
지금 우리가 사는 현실은 SF보다 더 기이한 시대임
그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임