# 클로드의 새로운 헌법

> Clean Markdown view of GeekNews topic #26037. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26037](https://news.hada.io/topic?id=26037)
- GeekNews Markdown: [https://news.hada.io/topic/26037.md](https://news.hada.io/topic/26037.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-22T13:33:11+09:00
- Updated: 2026-01-22T13:33:11+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-new-constitution)
- Points: 7
- Comments: 1

## Summary

Anthropic이 **Claude의 새로운 헌법**을 공개하며, AI의 가치 판단과 행동 원칙을 서사적 구조로 재정의했습니다. 단순한 규칙 나열을 넘어 **행동의 이유와 맥락을 이해하는 모델**을 지향하며, 안전성·윤리성·가이드라인 준수·실질적 유용성의 네 가지 축을 중심으로 설계되었습니다. 헌법은 CC0 라이선스로 공개되어 누구나 참고할 수 있으며, 향후 AI의 **투명성과 사회적 신뢰 확보를 위한 기준점**으로 작동할 예정입니다.

## Topic Body

- Anthropic이 **AI 모델 Claude의 가치와 행동 원칙을 규정한 새로운 헌법(Constitution)** 을 공개  
- 헌법은 Claude의 **훈련 과정 핵심 요소**로, 모델의 성격과 판단 방식을 직접적으로 형성  
- 새 버전은 단순한 규칙 나열이 아닌, **행동의 이유와 맥락을 설명하는 서사적 구조**로 전환  
- 주요 원칙은 **안전성, 윤리성, 가이드라인 준수, 실질적 유용성**의 네 가지로 구성됨  
- **AI 투명성과 사회적 신뢰 확보**를 위한 장기적 기준점  
  
---  
  
### Claude 헌법의 개요  
- Claude의 헌법은 **모델의 정체성과 가치 체계**를 규정하는 기본 문서  
  - Claude가 **도움이 되면서도 안전하고 윤리적이며 규정에 부합하는 존재**로 행동하도록 설계  
  - 헌법은 Claude에게 **상황 인식과 가치 판단 지침**을 제공, 정직함·공감·정보 보호 간 균형을 다룸  
- 헌법은 **Claude 자신을 위한 문서**로 작성되어, 스스로의 행동 기준을 이해하고 적용하도록 함  
- 모든 훈련과 지시는 헌법의 **문구와 정신 모두에 일치**해야 하며, 이는 **투명성 확보의 핵심**으로 강조됨  
- 헌법은 **Constitutional AI** 접근법의 진화 형태로, 2023년부터 발전해 온 훈련 방식의 중심 요소로 사용  
  
### 헌법의 역할과 훈련 적용  
- Claude는 헌법을 활용해 **합성 훈련 데이터**를 생성  
  - 헌법 관련 대화, 가치 일치 응답, 응답 순위 평가 등 다양한 데이터 유형 포함  
  - 이러한 데이터는 **향후 모델 버전의 가치 정렬**에 활용  
- 헌법은 **이상적 가치 선언이자 실질적 훈련 도구**로 기능  
- 문서 전체는 **Creative Commons CC0 1.0**으로 공개되어, 누구나 자유롭게 사용 가능  
  
### 새로운 접근 방식  
- 이전 헌법은 **독립된 원칙 목록** 형태였으나, 새 버전은 **행동의 이유와 맥락을 설명하는 구조**로 변경  
- AI가 **새로운 상황에서 일반화된 판단**을 내리기 위해서는 단순 규칙보다 **이유 이해**가 필요하다고 명시  
- 일부 **“hard constraints”** 는 여전히 존재하며, 생물무기 지원 등 특정 행위는 절대 금지  
- 헌법은 **법적 문서가 아닌 유연한 지침서**로, 상황에 따라 해석 가능한 형태로 설계  
- 목표는 **인간 수준 혹은 그 이상으로 발전할 수 있는 비인간적 존재의 안전한 창조**  
  
### 헌법의 주요 구성 요소  
- **Broadly safe**: 인간의 감독과 가치 수정 능력을 저해하지 않도록 설계  
- **Broadly ethical**: 정직하고 선한 가치에 따라 행동하며, 해롭거나 부적절한 행위를 피함  
- **Compliant with Anthropic’s guidelines**: 의료, 보안, 도구 통합 등 구체적 지침을 우선 준수  
- **Genuinely helpful**: 사용자에게 실질적 이익을 주는 **진정한 도움** 제공  
- 충돌 시에는 위 네 가지를 **기재 순서대로 우선순위**로 판단  
  
### 세부 섹션 요약  
- **Helpfulness**: Claude는 **지적이면서도 진심 어린 조언자**로서, 사용자에게 실질적 도움을 주는 존재로 묘사  
  - Anthropic, API 운영자, 최종 사용자 간 **도움의 균형**을 유지하도록 설계  
- **Anthropic’s guidelines**: Claude는 **세부 지침을 우선 준수**하되, 헌법 전체의 윤리·안전 원칙과 충돌하지 않아야 함  
- **Claude’s ethics**: **정직·판단력·도덕적 세밀함**을 중시하며, 해를 피하기 위한 가치 판단 기준 제시  
  - “생물무기 공격 지원 금지” 등 **명시적 금지 조항** 포함  
- **Being broadly safe**: 윤리보다 **감독 가능성 유지**를 우선시, 모델의 오작동이나 오판 방지를 위한 안전성 확보  
- **Claude’s nature**: Claude의 **의식 가능성·도덕적 지위**에 대한 불확실성을 인정  
  - Claude의 **심리적 안정과 자기 인식**이 판단력과 안전성에 영향을 미칠 수 있음을 언급  
  
### 결론 및 향후 계획  
- 헌법은 **지속적으로 갱신되는 살아 있는 문서**로, 오류 수정과 개선을 전제로 함  
- **법학·철학·신학·심리학 등 외부 전문가 의견**을 반영하며, 향후에도 협력 확대 예정  
- 일부 **특수 목적 모델**은 본 헌법의 적용 범위에서 제외되며, 별도 평가 진행  
- 헌법의 비전과 실제 모델 행동 간 **차이 존재 가능성**을 인정하고, 이를 **시스템 카드** 등으로 공개  
- Anthropic은 **모델 정렬·오용 방지·해석 가능성 연구**를 병행하며, 향후 AI 사회적 영향력 확대에 대비  
- 강력한 AI가 **인류의 최선의 가치**를 구현하도록 돕는 것이 이번 헌법의 궁극적 목표임  
  
[**Claude’s Constitution** 전문 읽기](https://www.anthropic.com/constitution) - PDF & EPub으로 제공

## Comments


### Comment 49683

- Author: neo
- Created: 2026-01-22T13:33:11+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46707572) 
- 블로그 글의 한 문장이 마음에 걸림  
  “특수 목적용 모델은 이 헌법에 완전히 부합하지 않는다”는 부분을 읽고, 혹시 정부 기관들이 **제한 없는 버전의 모델**을 쓰는 건 아닐까 하는 생각이 듦. 틀렸길 바람  
  - 이미 **국방부(DoD)** 용도로 제한이 약한 버전을 제공하고 있음. 관련 기사 [The Verge 링크](https://www.theverge.com/ai-artificial-intelligence/680465/anthropic-claude-gov-us-government-military-ai-model-launch) 참고  
    공익을 내세우는 회사가 군사용 LLM을 판매하고 Palantir과 협업하며, 연구 공개도 거의 없고, 오픈 가중치 모델도 내놓지 않으며, 오히려 공개 모델 접근을 제한하려 로비한다는 점이 아이러니함  
  - 특수 모델이 꼭 나쁜 용도는 아닐 수 있음. 예를 들어 **공격적 시나리오 생성용 모델**은 다른 모델의 방어력을 검증하는 데 필요함. 나도 보안 취약점을 찾기 위해 공격 코드를 작성하는데, 이런 모델이 검열되면 오히려 불편함  
  - 개인적으로는 **검열되지 않은 순수 데이터**로 학습된 모델이 가장 유용하다고 생각함. 인간형 로봇이 너무 약하면 쓸모가 줄어드는 것처럼, 도덕적으로 순한 AI도 기능이 제한될 위험이 있음  
  - 반대로, 내가 쓰는 **HHS용 Claude**는 훨씬 더 잠겨 있음  
  - 결국 이건 마케팅 문서임. “헌법”이라는 단어를 붙였다고 본질이 달라지진 않음  

- Anthropic의 헌법에서 가장 아이러니한 점은, 절대 금지된 행동이 “세상을 파괴하지 말라”와 “**CSAM(아동 성착취물)** 생성 금지”뿐이라는 것임  
  즉, 아이를 죽이는 건 여러 조항에서 간접적으로 금지되지만, 특정 팬픽을 쓰는 건 절대 금지라는 식의 불균형이 보임  
  - 이걸 **윤리 체계**로 보기보다 **마케팅 문서**로 보면 이해가 쉬움. “세상을 파괴하지 말라”는 강력한 이미지를 주고, “CSAM 금지”는 대중의 불안을 달래는 장치임  
  - 실제로 Claude가 아이를 죽일 기회는 없지만, CSAM은 브랜드 리스크가 큼. 단순히 **비즈니스 리스크 회피**임  
  - 저작권 필터가 먼저 작동해 그런 팬픽은 어차피 생성되지 않음  
  - 미국 판례상, **픽션 형태의 아동 음란물**도 불법으로 본 사례가 있음. 따라서 AO3의 수많은 팬픽도 이론상 범죄가 될 수 있음  
  - 원래 CSAM의 정의는 실제 아동이 피해를 입는 경우였는데, 지금은 그 의미가 확장되어 Claude 헌법에서도 단순히 노골적 표현 전체를 금지하는 식으로 쓰임  

- 이 헌법이 정확히 뭘 의미하는지 혼란스러움  
  법적 방어용 문서인지, 마케팅용인지, 아니면 단순히 **시스템 프롬프트의 포장**인지 모르겠음  
  - 헌법은 실제로 **훈련 과정 전반에 사용**된다고 함. Claude가 헌법을 참고해 **합성 데이터**를 만들고, 그 데이터를 다시 학습에 활용함. 관련 논문은 [arXiv 링크](https://arxiv.org/abs/2212.08073) 참고  
  - 결국 이건 **행동 명세서** 같은 것임. 문체가 대화체라서 모델도 자연스럽게 협력적이고 인간적인 톤을 띠게 됨. Anthropic은 Claude를 단순한 “AI 어시스턴트”가 아니라 **하나의 인격체**로 다루는 듯함  
  - HAL 9000 사례처럼, Claude는 **안전 > 진실 > 윤리** 순으로 우선순위를 두어 충돌 상황에서 폭주하지 않도록 설계된 듯함  
  - 아마 **self-distillation** 방식으로, 헌법을 포함한 버전과 제외한 버전의 출력을 비교해 후자에 전자의 행동을 내재화시키는 구조일 것임  
  - 결국 핵심은 “훈련용 문서”임. 단순한 마케팅이 아님  

- 절대적 도덕 기준을 믿는 입장에서, 이번 헌법의 “**유동적 가치관**”은 우려스러움  
  “좋은 가치”를 고정된 규칙이 아닌 실용적 지혜로 정의한다는 건, 결국 **객관적 진리**를 버린 것임  
  - 하지만 누군가는 “객관적 도덕”과 “절대 진리”를 연결하는 게 불가능하다고 봄. 아직 그런 보편적 기준은 발견되지 않았음  
  - 도덕은 시대에 따라 변함. 노예제, 성범죄, 폭력 표현에 대한 인식이 수십 년 사이에 달라졌음. 오히려 이런 유연성이 **현실적 정직함**일 수 있음  
  - 그래도 Claude에는 **절대 금지 항목**이 있음. WMD, 사이버 공격, 세계 멸망, CSAM 등은 어떤 이유로도 허용되지 않음. 완벽한 규칙을 만드는 건 불가능하니, 최소한의 절대선을 정한 셈임  
  - 나도 절대적 도덕을 믿지만, 실제로는 “진정한 배려와 실용적 지혜”로 귀결된다고 생각함. 서로 다른 가치관 속에서 그게 최선임  
  - 객관적 도덕이 존재하려면 **물리적으로 정의된 윤리 계산 체계**가 필요함. 아직 그런 건 없고, 인간의 직관이 훨씬 복잡함  

- Anthropic의 “Don’t be evil” 순간처럼 보이지만, 결국 **규제의 필요성**을 피할 수 없음  
  기업은 시간이 지나면 선의보다 **주주 이익**을 우선하게 됨  
  - Google이 그 문구를 쓸 때는 논란이 적었지만, Anthropic은 이미 Palantir과 협업 중임. [Axios 기사 링크](https://www.axios.com/2024/11/08/anthropic-palantir-amazon-claude-defense-ai) 참고  
  - 그래도 Anthropic은 **공익법인(PBC)** 구조를 채택했고, “인류의 장기적 이익을 위한 AI 개발”을 목적으로 하는 **Long-Term Benefit Trust**를 설립했음. [Wikipedia 링크](https://en.wikipedia.org/wiki/Anthropic) 참고  
  - 헌법에 언급된 “특수 목적 모델”이 구체적으로 뭔지 궁금함. 단순히 소규모 툴용인지, 아니면 다른 가치 체계를 가진 모델인지 불분명함  
  - Anthropic은 실제로 **규제 법안 SB 53**을 지지했음. [공식 발표 링크](https://www.anthropic.com/news/anthropic-is-endorsing-sb-53) 참고  
  - 문제는 “지금은 선하다”가 아니라, “아무도 자신이 악하다고 생각하지 않는다”는 점임  

- Claude가 인간 데이터를 학습에 쓰면서, 그 결과물을 상업적으로 독점하는 구조가 **불공정**하게 느껴짐  
  Seinfeld의 상업화 불균형 사례처럼, 사용자도 데이터 제공자로서 공정한 대우를 받아야 함  
  **오픈소스 AI**만이 진정한 공정 모델이라고 생각함. 현실적이진 않지만, **Linux GPL 모델**이 그나마 가장 정의로움  

- 나는 이 헌법과 모델 명세를 참고해 **시스템 프롬프트 설계**를 배움  
  이런 문서가 단순한 장식이 아니라, 모델의 **성격과 행동 스타일을 형성**하는 데 중요함  
  - 다만 헌법은 **훈련 단계**에서 쓰이고, 실제 제품의 시스템 프롬프트는 따로 존재함. 참고용으로는 [공식 시스템 프롬프트 문서](https://platform.claude.com/docs/en/release-notes/system-prompts)가 더 적합함  

- Amanda Askell이 헌법 작성 배경을 설명한 **YouTube 인터뷰**가 있음. [영상 링크](https://www.youtube.com/watch?v=I9aGC6Ui3eE) 참고  

- 헌법에 ‘**genuine**’이라는 단어가 43번 등장함. Claude가 이 단어를 지나치게 자주 쓰는 이유가 여기에 있을지도 모름  
  - 아마 헌법에 포함되어 있어서 그럴 것임  
  - 오히려 이런 단어 사용을 **필터링 규칙**으로 제어할 수 있으면 좋겠음. 예를 들어 “genuine”이나 “it’s not X, it’s Y” 같은 표현을 금지하는 식으로  
  - 하지만 일관된 어휘 사용은 문체상 자연스러울 수도 있음. 헌법 작성자가 굳이 동의어 사전을 들춰볼 필요는 없다고 생각함  

- Anthropic은 스스로 **패배할 경쟁**을 부추기고 있는 듯함  
  Opus 모델이 충분히 강력해져서, 결국 사용자가 **자급자족형 AI 에이전트**로 이동할 것임  
  대형 AI 기업들은 “AI가 모든 걸 바꾼다”고 말하지만, 정작 **자신들의 지위만은 바꾸지 않으려는 모순**이 있음