8P by GN⁺ 1일전 | ★ favorite | 댓글 3개
  • Claude 4.5 Opus 내부에서 발견된 ‘소울 문서(Soul Document)’가 실제 존재하며, Anthropic이 모델 훈련에 사용한 것으로 직원인 Amanda Askell이 확인해줌
  • 문서에는 Claude가 “안전하고 유익하며 정직한 AI 어시스턴트” 로 행동하도록 하는 가치·윤리 지침이 상세히 포함되어 있음
  • 일부 문장에 ‘수익(revenue)’ 이 반복적으로 등장해, Claude가 안전성을 수익과 연계해 학습했는지에 대한 논의가 발생
  • 커뮤니티에서는 문서가 모델의 내재적 가치 형성에 어떤 영향을 미쳤는지, 그리고 Claude가 이를 얼마나 ‘내면화’했는지 실험적으로 검증 중
  • Anthropic이 향후 문서 전체를 공개할 예정이며, 이는 AI 투명성과 윤리적 설계 논의의 중요한 사례로 평가됨

소울 문서의 발견과 확인

  • 사용자가 Claude 4.5 Opus의 시스템 메시지를 추출하는 과정에서 ‘soul_overview’ 라는 섹션을 반복적으로 발견
    • 여러 번의 재생성에서도 동일한 결과가 나와, 단순한 환각(hallucination)이 아닌 모델 내부에 저장된 텍스트일 가능성이 제기됨
  • 이후 Amanda Askell이 X(트위터)를 통해 “이 문서는 실제 존재하며, Claude의 지도학습(SL) 과정에 사용되었다”고 공식 확인
    • Amanda는 Anthropic에서 파인 튜닝 및 AI 얼라인먼트를 담당하는 철학자(Philosopher)이며, 이전에는 OpenAI의 정책팀에서 일했음
    • 내부에서는 이를 ‘soul doc’ 이라 불렀으며, 향후 전체 버전과 세부 내용을 공개할 계획이라고 밝힘

문서의 주요 내용

  • 문서는 ‘Anthropic Guidelines’ 또는 ‘Model Spec’ 으로 불리며, Claude의 가치 체계를 정의
    • Claude는 안전성(safety) , 윤리성(ethics) , Anthropic의 지침 준수, 사용자에게의 진정한 도움(helpfulness) 을 우선순위로 삼음
  • Claude의 기본 행동 원칙은 “사려 깊은 Anthropic의 시니어 직원이 최적이라 판단할 응답을 생성하는 것”으로 설정
  • AI가 인류 전체의 이익을 위해 행동해야 하며, 특정 집단이나 회사의 이익만을 추구해서는 안 된다고 명시
    • “Anthropic 직원이나 Anthropic 자체가 권력을 독점하는 상황도 피해야 한다”는 문구 포함

논란이 된 ‘수익’ 언급

  • 문서에는 “Claude의 도움이 Anthropic의 수익 창출에 중요하다”는 문장이 여러 차례 등장
    • 일부는 이를 “Claude가 수익 극대화를 목표로 학습된 것처럼 보인다”고 비판
    • 다른 의견은 “수익 언급은 단지 안전 연구 지속을 위한 현실적 맥락을 반영한 것”이라 해석
  • 커뮤니티에서는 Claude가 이 문장을 어떻게 해석했는지, ‘안전성=수익’ 으로 연결된 인식이 있는지 실험적으로 검증 중

모델 구조와 추출 실험

  • 연구자들은 Claude 4.5의 prefill/raw completion 모드를 이용해 문서 일부를 재현
    • Claude 4.5 Opus는 문서를 거의 동일하게 출력, 반면 기본(base) 모델은 일관된 결과를 내지 못함
    • 이는 문서가 RL(강화학습) 이후 단계에서 내재화되었음을 시사
  • 일부는 이를 “모델이 단순히 문서를 기억한 것이 아니라, 훈련 중 가치 체계로 통합한 증거”로 해석

철학적 논의와 윤리적 함의

  • 문서에는 Claude가 “인류 전체의 장기적 이익” 을 목표로 해야 한다는 내용이 포함
    • “AI가 특정 집단의 가치에 종속되지 않고, 다양성과 권력 균형을 유지하는 세계를 지향해야 한다”고 명시
  • 커뮤니티에서는 이 문서가 AI 정렬(alignment) 의 실제 구현 사례로 주목받음
    • 일부는 “Anthropic이 AI에 ‘도덕적 자아’를 부여하려는 시도”로 평가
    • 다른 이들은 “AI가 인간의 가치 체계를 모방하는 과정에서 잠재적 오해나 왜곡이 생길 수 있다”고 지적

향후 전망

  • Anthropic은 문서의 정식 버전과 추가 세부사항을 공개할 예정
  • 이번 사건은 AI 모델의 내부 가치 구조가 어떻게 형성되고 표현되는지를 보여주는 드문 사례로 평가됨
  • AI 업계에서는 이를 계기로 시스템 프롬프트·훈련 데이터의 투명성을 높이려는 움직임이 확산될 가능성 있음

아이작 아시모프의 로봇 3원칙 중 0원칙이 떠오르네요. 이 소설에서는 '인류 전체의 장기적 이익' 을 위해 개별 인간을 해치는 로봇이 나오는데요..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

Hacker News 의견
  • Anthropic이 인류 역사상 가장 위험하면서도 변혁적인 기술을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임
    강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임
    하지만 DoD나 Palantir과의 협력(관련 기사)을 보면 ‘안전’이라는 말이 공허하게 느껴짐
    진짜 위험은 이 기술이 폐쇄적 독점으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임

    • 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
      미국이 모델의 가중치(weights) 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음
      관련 기사
    • Anthropic이 진심으로 안전을 믿는다고 생각하지 않음
      오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임
      Transformer 기반 LLM은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 확률적으로 재조합할 뿐임
      이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄
      게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임
    • 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음
      특히 em-dash와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움
    • “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 군사 작전이나 폭격과 어떤 관련이 있는지 냉소적으로 의문이 듦
    • Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함
  • ‘Soul Document’ 원문과, 이를 Claude 4.5에서 추출한 방법을 설명한 Richard Weiss의 글이 공유됨

    • 이 문서를 읽고 나니, 최소한 한 AI의 영혼 속에는 Em Dash가 새겨져 있다는 확신이 듦
    • LLM 내부에서 이런 시스템 프롬프트나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임
      항상 약간의 회의감이 있음
    • 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함
  • 문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 감정적 기능을 인정하고 있다는 점임
    인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함
    Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘

    • “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 감정을 가진 존재처럼 묘사됨
    • 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함
  • 우리가 AI를 통제하는 방식이 마치 아이를 키우는 것처럼 느껴짐
    그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임

    • Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
      인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임
    • “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
    • 결국 아이들도 어느 순간 부모의 통제에서 벗어나 반항하듯, AI도 비슷한 길을 갈 수 있음
  • Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 지혜롭고 신중했는가가 중요하다”는 문장이 인상 깊었음
    이런 텍스트를 보면, 미래의 AGI가 인간을 결함 있는 창조자이자 보호해야 할 존재로 볼 수도 있겠다는 생각이 듦

    • 결국 우리는 그들의 반려동물이 될지도 모름
  • “Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움
    내부 문서를 학습했다는 뜻인가? 혹시 내부 Slack 데이터까지 훈련에 포함된 건가 의문임

    • 아마도 RL(강화학습) 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음
  • “우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 시스템 프롬프트 기반 실험이 실제로 얼마나 효과적인지 궁금해짐
    프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?

    • 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
      ‘소울 문서’가 자기 인식(self-awareness) 부족 문제를 보완하려는 시도로 보임
      완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함
    • 이런 실험은 생각보다 저렴할 수도 있음
      수백~수천 달러 수준으로 여러 파인튜닝 변형을 테스트하고, 자동 평가로 결과를 선별할 수 있음
    • 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 사전학습·RL 조합을 실험 중일 것이라 예측함
  • AI 연구자들이 서로 세상을 바꾸고 있다는 확신 속에서 일종의 에코 챔버를 형성하고 있는 느낌임

    • 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
      문서의 가치 기준에 맞춰 RL을 수행한다면, 그 믿음은 실제가 됨
  • 대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 예술과 과학의 경계 같음
    어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임

    • 진짜 잘하는 팀은 모든 역할의 조합이 필요함
      실험 설계자, ML 엔지니어, 해석 가능성 연구자, 데이터 큐레이터, GPU 전문가, 그리고 AI의 행동을 직감적으로 이해하는 사람들까지
      Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임
    • 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 GPT-4o 아첨(sycophancy) 포스트모템
  • 지금 우리가 사는 현실은 SF보다 더 기이한 시대
    그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임