클로드의 새로운 헌법

▲

GN⁺ 3달전 | parent | ★ favorite | on: 클로드의 새로운 헌법(anthropic.com)

Hacker News 의견들

블로그 글의 한 문장이 마음에 걸림
“특수 목적용 모델은 이 헌법에 완전히 부합하지 않는다”는 부분을 읽고, 혹시 정부 기관들이 제한 없는 버전의 모델을 쓰는 건 아닐까 하는 생각이 듦. 틀렸길 바람
- 이미 국방부(DoD) 용도로 제한이 약한 버전을 제공하고 있음. 관련 기사 The Verge 링크 참고
  공익을 내세우는 회사가 군사용 LLM을 판매하고 Palantir과 협업하며, 연구 공개도 거의 없고, 오픈 가중치 모델도 내놓지 않으며, 오히려 공개 모델 접근을 제한하려 로비한다는 점이 아이러니함
- 특수 모델이 꼭 나쁜 용도는 아닐 수 있음. 예를 들어 공격적 시나리오 생성용 모델은 다른 모델의 방어력을 검증하는 데 필요함. 나도 보안 취약점을 찾기 위해 공격 코드를 작성하는데, 이런 모델이 검열되면 오히려 불편함
- 개인적으로는 검열되지 않은 순수 데이터로 학습된 모델이 가장 유용하다고 생각함. 인간형 로봇이 너무 약하면 쓸모가 줄어드는 것처럼, 도덕적으로 순한 AI도 기능이 제한될 위험이 있음
- 반대로, 내가 쓰는 HHS용 Claude는 훨씬 더 잠겨 있음
- 결국 이건 마케팅 문서임. “헌법”이라는 단어를 붙였다고 본질이 달라지진 않음
Anthropic의 헌법에서 가장 아이러니한 점은, 절대 금지된 행동이 “세상을 파괴하지 말라”와 “CSAM(아동 성착취물) 생성 금지”뿐이라는 것임
즉, 아이를 죽이는 건 여러 조항에서 간접적으로 금지되지만, 특정 팬픽을 쓰는 건 절대 금지라는 식의 불균형이 보임
- 이걸 윤리 체계로 보기보다 마케팅 문서로 보면 이해가 쉬움. “세상을 파괴하지 말라”는 강력한 이미지를 주고, “CSAM 금지”는 대중의 불안을 달래는 장치임
- 실제로 Claude가 아이를 죽일 기회는 없지만, CSAM은 브랜드 리스크가 큼. 단순히 비즈니스 리스크 회피임
- 저작권 필터가 먼저 작동해 그런 팬픽은 어차피 생성되지 않음
- 미국 판례상, 픽션 형태의 아동 음란물도 불법으로 본 사례가 있음. 따라서 AO3의 수많은 팬픽도 이론상 범죄가 될 수 있음
- 원래 CSAM의 정의는 실제 아동이 피해를 입는 경우였는데, 지금은 그 의미가 확장되어 Claude 헌법에서도 단순히 노골적 표현 전체를 금지하는 식으로 쓰임
이 헌법이 정확히 뭘 의미하는지 혼란스러움
법적 방어용 문서인지, 마케팅용인지, 아니면 단순히 시스템 프롬프트의 포장인지 모르겠음
- 헌법은 실제로 훈련 과정 전반에 사용된다고 함. Claude가 헌법을 참고해 합성 데이터를 만들고, 그 데이터를 다시 학습에 활용함. 관련 논문은 arXiv 링크 참고
- 결국 이건 행동 명세서 같은 것임. 문체가 대화체라서 모델도 자연스럽게 협력적이고 인간적인 톤을 띠게 됨. Anthropic은 Claude를 단순한 “AI 어시스턴트”가 아니라 하나의 인격체로 다루는 듯함
- HAL 9000 사례처럼, Claude는 안전 > 진실 > 윤리 순으로 우선순위를 두어 충돌 상황에서 폭주하지 않도록 설계된 듯함
- 아마 self-distillation 방식으로, 헌법을 포함한 버전과 제외한 버전의 출력을 비교해 후자에 전자의 행동을 내재화시키는 구조일 것임
- 결국 핵심은 “훈련용 문서”임. 단순한 마케팅이 아님
절대적 도덕 기준을 믿는 입장에서, 이번 헌법의 “유동적 가치관”은 우려스러움
“좋은 가치”를 고정된 규칙이 아닌 실용적 지혜로 정의한다는 건, 결국 객관적 진리를 버린 것임
- 하지만 누군가는 “객관적 도덕”과 “절대 진리”를 연결하는 게 불가능하다고 봄. 아직 그런 보편적 기준은 발견되지 않았음
- 도덕은 시대에 따라 변함. 노예제, 성범죄, 폭력 표현에 대한 인식이 수십 년 사이에 달라졌음. 오히려 이런 유연성이 현실적 정직함일 수 있음
- 그래도 Claude에는 절대 금지 항목이 있음. WMD, 사이버 공격, 세계 멸망, CSAM 등은 어떤 이유로도 허용되지 않음. 완벽한 규칙을 만드는 건 불가능하니, 최소한의 절대선을 정한 셈임
- 나도 절대적 도덕을 믿지만, 실제로는 “진정한 배려와 실용적 지혜”로 귀결된다고 생각함. 서로 다른 가치관 속에서 그게 최선임
- 객관적 도덕이 존재하려면 물리적으로 정의된 윤리 계산 체계가 필요함. 아직 그런 건 없고, 인간의 직관이 훨씬 복잡함
Anthropic의 “Don’t be evil” 순간처럼 보이지만, 결국 규제의 필요성을 피할 수 없음
기업은 시간이 지나면 선의보다 주주 이익을 우선하게 됨
- Google이 그 문구를 쓸 때는 논란이 적었지만, Anthropic은 이미 Palantir과 협업 중임. Axios 기사 링크 참고
- 그래도 Anthropic은 공익법인(PBC) 구조를 채택했고, “인류의 장기적 이익을 위한 AI 개발”을 목적으로 하는 Long-Term Benefit Trust를 설립했음. Wikipedia 링크 참고
- 헌법에 언급된 “특수 목적 모델”이 구체적으로 뭔지 궁금함. 단순히 소규모 툴용인지, 아니면 다른 가치 체계를 가진 모델인지 불분명함
- Anthropic은 실제로 규제 법안 SB 53을 지지했음. 공식 발표 링크 참고
- 문제는 “지금은 선하다”가 아니라, “아무도 자신이 악하다고 생각하지 않는다”는 점임
Claude가 인간 데이터를 학습에 쓰면서, 그 결과물을 상업적으로 독점하는 구조가 불공정하게 느껴짐
Seinfeld의 상업화 불균형 사례처럼, 사용자도 데이터 제공자로서 공정한 대우를 받아야 함
오픈소스 AI만이 진정한 공정 모델이라고 생각함. 현실적이진 않지만, Linux GPL 모델이 그나마 가장 정의로움
나는 이 헌법과 모델 명세를 참고해 시스템 프롬프트 설계를 배움
이런 문서가 단순한 장식이 아니라, 모델의 성격과 행동 스타일을 형성하는 데 중요함
- 다만 헌법은 훈련 단계에서 쓰이고, 실제 제품의 시스템 프롬프트는 따로 존재함. 참고용으로는 공식 시스템 프롬프트 문서가 더 적합함
Amanda Askell이 헌법 작성 배경을 설명한 YouTube 인터뷰가 있음. 영상 링크 참고
헌법에 ‘genuine’이라는 단어가 43번 등장함. Claude가 이 단어를 지나치게 자주 쓰는 이유가 여기에 있을지도 모름
- 아마 헌법에 포함되어 있어서 그럴 것임
- 오히려 이런 단어 사용을 필터링 규칙으로 제어할 수 있으면 좋겠음. 예를 들어 “genuine”이나 “it’s not X, it’s Y” 같은 표현을 금지하는 식으로
- 하지만 일관된 어휘 사용은 문체상 자연스러울 수도 있음. 헌법 작성자가 굳이 동의어 사전을 들춰볼 필요는 없다고 생각함
Anthropic은 스스로 패배할 경쟁을 부추기고 있는 듯함
Opus 모델이 충분히 강력해져서, 결국 사용자가 자급자족형 AI 에이전트로 이동할 것임
대형 AI 기업들은 “AI가 모든 걸 바꾼다”고 말하지만, 정작 자신들의 지위만은 바꾸지 않으려는 모순이 있음