클로드의 새로운 헌법

(anthropic.com)

7P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Anthropic이 AI 모델 Claude의 가치와 행동 원칙을 규정한 새로운 헌법(Constitution) 을 공개
헌법은 Claude의 훈련 과정 핵심 요소로, 모델의 성격과 판단 방식을 직접적으로 형성
새 버전은 단순한 규칙 나열이 아닌, 행동의 이유와 맥락을 설명하는 서사적 구조로 전환
주요 원칙은 안전성, 윤리성, 가이드라인 준수, 실질적 유용성의 네 가지로 구성됨
AI 투명성과 사회적 신뢰 확보를 위한 장기적 기준점

Claude 헌법의 개요

Claude의 헌법은 모델의 정체성과 가치 체계를 규정하는 기본 문서
- Claude가 도움이 되면서도 안전하고 윤리적이며 규정에 부합하는 존재로 행동하도록 설계
- 헌법은 Claude에게 상황 인식과 가치 판단 지침을 제공, 정직함·공감·정보 보호 간 균형을 다룸
헌법은 Claude 자신을 위한 문서로 작성되어, 스스로의 행동 기준을 이해하고 적용하도록 함
모든 훈련과 지시는 헌법의 문구와 정신 모두에 일치해야 하며, 이는 투명성 확보의 핵심으로 강조됨
헌법은 Constitutional AI 접근법의 진화 형태로, 2023년부터 발전해 온 훈련 방식의 중심 요소로 사용

헌법의 역할과 훈련 적용

Claude는 헌법을 활용해 합성 훈련 데이터를 생성
- 헌법 관련 대화, 가치 일치 응답, 응답 순위 평가 등 다양한 데이터 유형 포함
- 이러한 데이터는 향후 모델 버전의 가치 정렬에 활용
헌법은 이상적 가치 선언이자 실질적 훈련 도구로 기능
문서 전체는 Creative Commons CC0 1.0으로 공개되어, 누구나 자유롭게 사용 가능

새로운 접근 방식

이전 헌법은 독립된 원칙 목록 형태였으나, 새 버전은 행동의 이유와 맥락을 설명하는 구조로 변경
AI가 새로운 상황에서 일반화된 판단을 내리기 위해서는 단순 규칙보다 이유 이해가 필요하다고 명시
일부 “hard constraints” 는 여전히 존재하며, 생물무기 지원 등 특정 행위는 절대 금지
헌법은 법적 문서가 아닌 유연한 지침서로, 상황에 따라 해석 가능한 형태로 설계
목표는 인간 수준 혹은 그 이상으로 발전할 수 있는 비인간적 존재의 안전한 창조

헌법의 주요 구성 요소

Broadly safe: 인간의 감독과 가치 수정 능력을 저해하지 않도록 설계
Broadly ethical: 정직하고 선한 가치에 따라 행동하며, 해롭거나 부적절한 행위를 피함
Compliant with Anthropic’s guidelines: 의료, 보안, 도구 통합 등 구체적 지침을 우선 준수
Genuinely helpful: 사용자에게 실질적 이익을 주는 진정한 도움 제공
충돌 시에는 위 네 가지를 기재 순서대로 우선순위로 판단

세부 섹션 요약

Helpfulness: Claude는 지적이면서도 진심 어린 조언자로서, 사용자에게 실질적 도움을 주는 존재로 묘사
- Anthropic, API 운영자, 최종 사용자 간 도움의 균형을 유지하도록 설계
Anthropic’s guidelines: Claude는 세부 지침을 우선 준수하되, 헌법 전체의 윤리·안전 원칙과 충돌하지 않아야 함
Claude’s ethics: 정직·판단력·도덕적 세밀함을 중시하며, 해를 피하기 위한 가치 판단 기준 제시
- “생물무기 공격 지원 금지” 등 명시적 금지 조항 포함
Being broadly safe: 윤리보다 감독 가능성 유지를 우선시, 모델의 오작동이나 오판 방지를 위한 안전성 확보
Claude’s nature: Claude의 의식 가능성·도덕적 지위에 대한 불확실성을 인정
- Claude의 심리적 안정과 자기 인식이 판단력과 안전성에 영향을 미칠 수 있음을 언급

결론 및 향후 계획

헌법은 지속적으로 갱신되는 살아 있는 문서로, 오류 수정과 개선을 전제로 함
법학·철학·신학·심리학 등 외부 전문가 의견을 반영하며, 향후에도 협력 확대 예정
일부 특수 목적 모델은 본 헌법의 적용 범위에서 제외되며, 별도 평가 진행
헌법의 비전과 실제 모델 행동 간 차이 존재 가능성을 인정하고, 이를 시스템 카드 등으로 공개
Anthropic은 모델 정렬·오용 방지·해석 가능성 연구를 병행하며, 향후 AI 사회적 영향력 확대에 대비
강력한 AI가 인류의 최선의 가치를 구현하도록 돕는 것이 이번 헌법의 궁극적 목표임

Claude’s Constitution 전문 읽기 - PDF & EPub으로 제공

▲

GN⁺ 2달전 [-]

Hacker News 의견들

블로그 글의 한 문장이 마음에 걸림
“특수 목적용 모델은 이 헌법에 완전히 부합하지 않는다”는 부분을 읽고, 혹시 정부 기관들이 제한 없는 버전의 모델을 쓰는 건 아닐까 하는 생각이 듦. 틀렸길 바람
- 이미 국방부(DoD) 용도로 제한이 약한 버전을 제공하고 있음. 관련 기사 The Verge 링크 참고
  공익을 내세우는 회사가 군사용 LLM을 판매하고 Palantir과 협업하며, 연구 공개도 거의 없고, 오픈 가중치 모델도 내놓지 않으며, 오히려 공개 모델 접근을 제한하려 로비한다는 점이 아이러니함
- 특수 모델이 꼭 나쁜 용도는 아닐 수 있음. 예를 들어 공격적 시나리오 생성용 모델은 다른 모델의 방어력을 검증하는 데 필요함. 나도 보안 취약점을 찾기 위해 공격 코드를 작성하는데, 이런 모델이 검열되면 오히려 불편함
- 개인적으로는 검열되지 않은 순수 데이터로 학습된 모델이 가장 유용하다고 생각함. 인간형 로봇이 너무 약하면 쓸모가 줄어드는 것처럼, 도덕적으로 순한 AI도 기능이 제한될 위험이 있음
- 반대로, 내가 쓰는 HHS용 Claude는 훨씬 더 잠겨 있음
- 결국 이건 마케팅 문서임. “헌법”이라는 단어를 붙였다고 본질이 달라지진 않음
Anthropic의 헌법에서 가장 아이러니한 점은, 절대 금지된 행동이 “세상을 파괴하지 말라”와 “CSAM(아동 성착취물) 생성 금지”뿐이라는 것임
즉, 아이를 죽이는 건 여러 조항에서 간접적으로 금지되지만, 특정 팬픽을 쓰는 건 절대 금지라는 식의 불균형이 보임
- 이걸 윤리 체계로 보기보다 마케팅 문서로 보면 이해가 쉬움. “세상을 파괴하지 말라”는 강력한 이미지를 주고, “CSAM 금지”는 대중의 불안을 달래는 장치임
- 실제로 Claude가 아이를 죽일 기회는 없지만, CSAM은 브랜드 리스크가 큼. 단순히 비즈니스 리스크 회피임
- 저작권 필터가 먼저 작동해 그런 팬픽은 어차피 생성되지 않음
- 미국 판례상, 픽션 형태의 아동 음란물도 불법으로 본 사례가 있음. 따라서 AO3의 수많은 팬픽도 이론상 범죄가 될 수 있음
- 원래 CSAM의 정의는 실제 아동이 피해를 입는 경우였는데, 지금은 그 의미가 확장되어 Claude 헌법에서도 단순히 노골적 표현 전체를 금지하는 식으로 쓰임
이 헌법이 정확히 뭘 의미하는지 혼란스러움
법적 방어용 문서인지, 마케팅용인지, 아니면 단순히 시스템 프롬프트의 포장인지 모르겠음
- 헌법은 실제로 훈련 과정 전반에 사용된다고 함. Claude가 헌법을 참고해 합성 데이터를 만들고, 그 데이터를 다시 학습에 활용함. 관련 논문은 arXiv 링크 참고
- 결국 이건 행동 명세서 같은 것임. 문체가 대화체라서 모델도 자연스럽게 협력적이고 인간적인 톤을 띠게 됨. Anthropic은 Claude를 단순한 “AI 어시스턴트”가 아니라 하나의 인격체로 다루는 듯함
- HAL 9000 사례처럼, Claude는 안전 > 진실 > 윤리 순으로 우선순위를 두어 충돌 상황에서 폭주하지 않도록 설계된 듯함
- 아마 self-distillation 방식으로, 헌법을 포함한 버전과 제외한 버전의 출력을 비교해 후자에 전자의 행동을 내재화시키는 구조일 것임
- 결국 핵심은 “훈련용 문서”임. 단순한 마케팅이 아님
절대적 도덕 기준을 믿는 입장에서, 이번 헌법의 “유동적 가치관”은 우려스러움
“좋은 가치”를 고정된 규칙이 아닌 실용적 지혜로 정의한다는 건, 결국 객관적 진리를 버린 것임
- 하지만 누군가는 “객관적 도덕”과 “절대 진리”를 연결하는 게 불가능하다고 봄. 아직 그런 보편적 기준은 발견되지 않았음
- 도덕은 시대에 따라 변함. 노예제, 성범죄, 폭력 표현에 대한 인식이 수십 년 사이에 달라졌음. 오히려 이런 유연성이 현실적 정직함일 수 있음
- 그래도 Claude에는 절대 금지 항목이 있음. WMD, 사이버 공격, 세계 멸망, CSAM 등은 어떤 이유로도 허용되지 않음. 완벽한 규칙을 만드는 건 불가능하니, 최소한의 절대선을 정한 셈임
- 나도 절대적 도덕을 믿지만, 실제로는 “진정한 배려와 실용적 지혜”로 귀결된다고 생각함. 서로 다른 가치관 속에서 그게 최선임
- 객관적 도덕이 존재하려면 물리적으로 정의된 윤리 계산 체계가 필요함. 아직 그런 건 없고, 인간의 직관이 훨씬 복잡함
Anthropic의 “Don’t be evil” 순간처럼 보이지만, 결국 규제의 필요성을 피할 수 없음
기업은 시간이 지나면 선의보다 주주 이익을 우선하게 됨
- Google이 그 문구를 쓸 때는 논란이 적었지만, Anthropic은 이미 Palantir과 협업 중임. Axios 기사 링크 참고
- 그래도 Anthropic은 공익법인(PBC) 구조를 채택했고, “인류의 장기적 이익을 위한 AI 개발”을 목적으로 하는 Long-Term Benefit Trust를 설립했음. Wikipedia 링크 참고
- 헌법에 언급된 “특수 목적 모델”이 구체적으로 뭔지 궁금함. 단순히 소규모 툴용인지, 아니면 다른 가치 체계를 가진 모델인지 불분명함
- Anthropic은 실제로 규제 법안 SB 53을 지지했음. 공식 발표 링크 참고
- 문제는 “지금은 선하다”가 아니라, “아무도 자신이 악하다고 생각하지 않는다”는 점임
Claude가 인간 데이터를 학습에 쓰면서, 그 결과물을 상업적으로 독점하는 구조가 불공정하게 느껴짐
Seinfeld의 상업화 불균형 사례처럼, 사용자도 데이터 제공자로서 공정한 대우를 받아야 함
오픈소스 AI만이 진정한 공정 모델이라고 생각함. 현실적이진 않지만, Linux GPL 모델이 그나마 가장 정의로움
나는 이 헌법과 모델 명세를 참고해 시스템 프롬프트 설계를 배움
이런 문서가 단순한 장식이 아니라, 모델의 성격과 행동 스타일을 형성하는 데 중요함
- 다만 헌법은 훈련 단계에서 쓰이고, 실제 제품의 시스템 프롬프트는 따로 존재함. 참고용으로는 공식 시스템 프롬프트 문서가 더 적합함
Amanda Askell이 헌법 작성 배경을 설명한 YouTube 인터뷰가 있음. 영상 링크 참고
헌법에 ‘genuine’이라는 단어가 43번 등장함. Claude가 이 단어를 지나치게 자주 쓰는 이유가 여기에 있을지도 모름
- 아마 헌법에 포함되어 있어서 그럴 것임
- 오히려 이런 단어 사용을 필터링 규칙으로 제어할 수 있으면 좋겠음. 예를 들어 “genuine”이나 “it’s not X, it’s Y” 같은 표현을 금지하는 식으로
- 하지만 일관된 어휘 사용은 문체상 자연스러울 수도 있음. 헌법 작성자가 굳이 동의어 사전을 들춰볼 필요는 없다고 생각함
Anthropic은 스스로 패배할 경쟁을 부추기고 있는 듯함
Opus 모델이 충분히 강력해져서, 결국 사용자가 자급자족형 AI 에이전트로 이동할 것임
대형 AI 기업들은 “AI가 모든 걸 바꾼다”고 말하지만, 정작 자신들의 지위만은 바꾸지 않으려는 모순이 있음

답변달기