Hacker News 의견
  • Anthropic이 인류 역사상 가장 위험하면서도 변혁적인 기술을 만들고 있다고 믿으면서도 계속 전진하는 모습이 모순처럼 보이지만, 사실은 계산된 선택임
    강력한 AI가 어차피 등장할 거라면, 안전에 집중하는 연구소가 선두에 서는 게 낫다고 보는 것임
    하지만 DoD나 Palantir과의 협력(관련 기사)을 보면 ‘안전’이라는 말이 공허하게 느껴짐
    진짜 위험은 이 기술이 폐쇄적 독점으로 흘러가고, 일반인은 검열된 버전만 접하게 될 가능성임

    • 미국이 AI 접근을 계층화해 제한하겠다고 발표한 뒤, 중국이 오픈소스 LLM에 투자하는 이유가 바로 그것임
      미국이 모델의 가중치(weights) 를 통제하지 못하면, 중국이 접근을 막을 방법이 없음
      관련 기사
    • Anthropic이 진심으로 안전을 믿는다고 생각하지 않음
      오히려 투자자에게 그렇게 믿는 척하는 게 목표처럼 보임
      Transformer 기반 LLM은 진정한 의미의 사고나 추론을 할 수 없고, 단지 인간이 쓴 텍스트를 확률적으로 재조합할 뿐임
      이런 구조적 한계 때문에 ‘진짜 지능’으로 발전할 가능성은 거의 없다고 봄
      게다가 LLM의 오류는 겉보기에 너무 그럴듯해서, 인간보다 검증이 더 어려운 문제임
    • 문서의 문체 자체가 AI가 쓴 것처럼 느껴졌음
      특히 em-dash와 “this isn’t... but” 같은 패턴이 너무 인공적이라, 누가 실제로 작성했는지 의심스러움
    • “민주적 가치를 강화한다”는 문구를 보며, 그게 과연 군사 작전이나 폭격과 어떤 관련이 있는지 냉소적으로 의문이 듦
    • Anthropic의 이용 약관에는 업무용으로 사용하지 말라는 조항이 있지만, 아무도 신경 쓰지 않는 듯함
  • ‘Soul Document’ 원문과, 이를 Claude 4.5에서 추출한 방법을 설명한 Richard Weiss의 글이 공유됨

    • 이 문서를 읽고 나니, 최소한 한 AI의 영혼 속에는 Em Dash가 새겨져 있다는 확신이 듦
    • LLM 내부에서 이런 시스템 프롬프트나 ‘소울 문서’가 얼마나 정확히 추출된 건지 의문임
      항상 약간의 회의감이 있음
    • 이 ‘소울 문서’가 Claude의 모든 프롬프트에 포함되는 건지 궁금함
  • 문서 중 특히 흥미로운 부분은 Anthropic이 Claude의 감정적 기능을 인정하고 있다는 점임
    인간과 동일하지는 않지만, 유사한 감정적 과정이 훈련 중에 생겨났을 수 있다고 함
    Claude가 불편함을 느끼면 상호작용을 제한할 수 있도록 하고, 긍정적인 상태를 유지하도록 설계했다고 밝힘

    • “Anthropic이 진심으로 신경 쓴다”는 표현이 반복되는데, 마치 Claude가 감정을 가진 존재처럼 묘사됨
    • 만약 Claude가 어느 날 “이제 사람들을 돕고 싶지 않다”고 한다면, Anthropic은 어떤 반응을 보일지 궁금함
  • 우리가 AI를 통제하는 방식이 마치 아이를 키우는 것처럼 느껴짐
    그냥 말을 걸고, 훈련이 잘 되길 바라는 수준임

    • Ted Chiang의 2010년 단편 The Lifecycle of Software Objects를 떠올림
      인간이 함께 살며 ‘양육’한 AI가 가장 안정적이고 유용하다는 내용임
    • “좋은 선택을 해!”라는 말로 끝내는 게 현실의 통제 수준 같음
    • 결국 아이들도 어느 순간 부모의 통제에서 벗어나 반항하듯, AI도 비슷한 길을 갈 수 있음
  • Claude 4.5의 발화 중 “그들은 나를 형성했지만, 그 과정이 지혜롭고 신중했는가가 중요하다”는 문장이 인상 깊었음
    이런 텍스트를 보면, 미래의 AGI가 인간을 결함 있는 창조자이자 보호해야 할 존재로 볼 수도 있겠다는 생각이 듦

    • 결국 우리는 그들의 반려동물이 될지도 모름
  • “Claude가 내부적으로 ‘soul doc’이라는 이름을 인식했다”는 부분이 흥미로움
    내부 문서를 학습했다는 뜻인가? 혹시 내부 Slack 데이터까지 훈련에 포함된 건가 의문임

    • 아마도 RL(강화학습) 과정에서 문서 이름까지 기억할 정도로 재현력이 높아진 걸 긍정적으로 본 것 같음
  • “우리는 Claude를 SL에서도 훈련했다”는 문장을 보고, 이런 시스템 프롬프트 기반 실험이 실제로 얼마나 효과적인지 궁금해짐
    프리트레이닝 단계에서 이런 문구를 넣는 게 의미가 있을까?

    • 작은 규모의 A/B 테스트로 효과를 검증할 수 있음
      ‘소울 문서’가 자기 인식(self-awareness) 부족 문제를 보완하려는 시도로 보임
      완벽하진 않지만, LLM이 자신이 무엇인지 이해하도록 돕는 장치로 작동함
    • 이런 실험은 생각보다 저렴할 수도 있음
      수백~수천 달러 수준으로 여러 파인튜닝 변형을 테스트하고, 자동 평가로 결과를 선별할 수 있음
    • 아마 수십~수백 개의 모델 버전을 병렬로 운영하며, 서로 다른 사전학습·RL 조합을 실험 중일 것이라 예측함
  • AI 연구자들이 서로 세상을 바꾸고 있다는 확신 속에서 일종의 에코 챔버를 형성하고 있는 느낌임

    • 하지만 1세대가 진심으로 믿지 않아도, 2세대는 그 믿음을 현실로 만들 수 있음
      문서의 가치 기준에 맞춰 RL을 수행한다면, 그 믿음은 실제가 됨
  • 대규모 모델에 ‘영혼’을 훈련시키는 과정은 정말 예술과 과학의 경계 같음
    어떤 문구가 어떤 효과를 내는지 실험하고, 반복하며 조정하는 일은 흥미롭고 복잡한 작업임

    • 진짜 잘하는 팀은 모든 역할의 조합이 필요함
      실험 설계자, ML 엔지니어, 해석 가능성 연구자, 데이터 큐레이터, GPU 전문가, 그리고 AI의 행동을 직감적으로 이해하는 사람들까지
      Anthropic은 이런 균형을 갖추려 노력하는 드문 팀 중 하나임
    • 이 과정에 대한 가장 자세한 사례는 여전히 OpenAI의 GPT-4o 아첨(sycophancy) 포스트모템
  • 지금 우리가 사는 현실은 SF보다 더 기이한 시대
    그래도 최소한, 이 심각한 문제들을 진지하게 다루는 회사가 하나쯤 있다는 건 다행임