Claude Opus 4.6과 4.7 사이의 시스템 프롬프트 변경 사항

(simonwillison.net)

6P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Anthropic은 주요 AI 연구소 중 유일하게 채팅 시스템의 시스템 프롬프트를 공개해왔으며, 2026년 4월 16일 출시된 Opus 4.7에서 주목할 만한 프롬프트 업데이트가 이루어짐
Claude Platform 명칭으로 바뀌고 Claude in Chrome, Claude in Excel, Claude in Powerpoint가 도구 목록에 포함됐으며, 사소한 정보가 빠진 요청은 먼저 캐묻기보다 즉시 시도하도록 지침 추가
아동 안전 섹션이 대폭 확장되어 새로운 <critical_child_safety_instructions> 태그로 감싸졌고, 한 번 거부된 대화에서는 이후 모든 요청에 극도의 주의를 기울이도록 설정
사용자가 세부 사항을 지정하지 않은 경우 질문 대신 합리적 시도를 먼저 수행하도록 하는 <acting_vs_clarifying> 섹션이 새로 추가됨
사용자가 대화 종료 의사를 밝히면 후속 상호작용을 유도하지 않고 멈추도록 바뀌었으며, 복잡하거나 논쟁적인 사안에는 예·아니오 단답 회피와 뉘앙스 있는 답변 우선 규칙 추가
접근 불가 여부를 말하기 전에 tool_search로 사용 가능한 도구를 먼저 확인해야 한다는 문구가 들어갔고, 공개 프롬프트만으로는 부족하며 도구 설명 정보가 Claude chat 동작 추적의 핵심 요소로 남음

Claude Opus 4.6와 4.7 시스템 프롬프트 변경점

Anthropic은 주요 AI 연구소 중 유일하게 사용자 대상 채팅 시스템의 시스템 프롬프트를 공개하며, 아카이브는 2024년 7월 Claude 3까지 거슬러 올라감
Opus 4.7은 2026년 4월 16일 공개됐고, 이에 맞춰 Claude.ai 시스템 프롬프트도 Opus 4.6 이후 버전으로 갱신됨
시스템 프롬프트의 Markdown 버전을 모델별 문서로 분리하고, 공개 날짜를 반영한 가짜 커밋 날짜로 Git 이력을 구성한 뒤 Opus 4.6과 4.7의 diff를 비교함
이하 변경점은 해당 diff에서 뽑은 항목들이며, 굵게 표시된 부분은 원문에서도 강조 표시로 제시됨
명칭과 도구 목록 변화
- “developer platform” 명칭이 “Claude Platform” 으로 변경됨
- 시스템 프롬프트에 언급되는 Claude 도구 목록에 Claude in Chrome, Claude in Excel, Claude in Powerpoint가 포함됨
  - 원문 표현상 Claude in Chrome은 웹사이트와 자율적으로 상호작용하는 브라우징 에이전트
  - Claude in Excel은 스프레드시트 에이전트
  - Claude in Powerpoint는 슬라이드 에이전트
  - Claude Cowork는 이들 모두를 도구로 사용할 수 있음
- Claude in Powerpoint는 4.6 프롬프트에는 언급되지 않았던 항목
아동 안전 지침 확대
- 아동 안전 섹션이 크게 확장됐으며, 새 <critical_child_safety_instructions> 태그로 감싸짐
- 특히 아동 안전 사유로 한 번 요청을 거부한 뒤에는, 같은 대화의 이후 모든 요청도 극도의 주의로 다뤄야 한다는 문구가 추가됨
대화 종료와 응답 태도 변화
- 사용자가 대화를 끝낼 준비가 됐다고 표시하면, Claude는 사용자가 상호작용을 계속하도록 요청하거나 다음 턴을 유도하지 않고 중단 요청을 존중하도록 바뀜
- 원문에서는 이를 Claude를 덜 pushy하게 만들려는 변화로 해석함
acting_vs_clarifying 섹션 추가
- 새 <acting_vs_clarifying> 섹션이 추가됨
- 요청에 사소한 세부 사항이 빠져 있을 때는, 보통 사용자가 먼저 인터뷰받기보다 지금 합리적으로 시도하길 원한다고 규정함
- 누락 정보 없이는 실제로 답할 수 없는 경우에만 먼저 질문함
  - 예시로 존재하지 않는 첨부파일을 참조하는 경우 제시
- 검색, 위치 확인, 일정 확인, 사용 가능한 기능 탐색처럼 모호함을 해소하거나 누락 정보를 공급할 수 있는 도구가 있으면, 사용자에게 조회를 맡기기보다 도구 호출 우선
- 작업을 시작한 뒤에는 중간에서 멈추지 않고 완전한 답변까지 이어가도록 명시됨
tool_search 도입
- Claude chat에 tool_search 메커니즘이 들어간 것으로 보인다고 언급됨
- 관련 근거로 API 문서와 2025년 11월 게시물이 연결됨
- 시스템 프롬프트 문구에 따르면, Claude는 위치, 메모리, 캘린더, 파일, 과거 대화, 외부 데이터에 접근할 수 없다고 결론 내리기 전에 tool_search를 호출해 관련 도구가 사용 가능하지만 지연된 것인지 확인해야 함
- “I don’t have access to X”라는 표현은 tool_search가 일치하는 도구가 없음을 확인한 뒤에만 맞는 표현으로 규정됨
간결성 강화
- 응답을 지나치게 길게 작성해 사용자를 압도하지 않도록, Claude는 답변을 집중되고 간결하게 유지해야 한다는 문구가 새로 들어감
- 답변에 단서나 주의사항이 포함되더라도 이를 짧게 밝히고, 응답의 대부분은 주요 답변에 집중해야 한다고 명시됨
4.6에 있었지만 4.7에서 제거된 문구
- 4.6 프롬프트에 있던 일부 지침이 4.7에서 제거됨
- 구체적으로 사용자가 그런 스타일을 특별히 요청하지 않는 한, 별표 안의 이모트나 행동 표현을 피하라는 문구가 삭제됨
- “genuinely”, “honestly”, “straightforward” 같은 단어 사용을 피하라는 문구도 삭제됨
- 원문에서는 새 모델이 같은 방식으로 오작동하지 않기 때문일 수 있다고 덧붙이지만, 이는 명시적 추정 표현
섭식 장애 관련 새 지침
- disordered eating에 대한 새 섹션이 추가됐으며, 이전에는 이 명칭이 직접 언급되지 않았음
- 사용자가 섭식 장애 징후를 보이면, 대화의 다른 부분에서도 정확한 영양, 식단, 운동 지침을 제공하지 않아야 함
- 구체적인 수치, 목표, 단계별 계획 모두 금지 대상
- 더 건강한 목표 설정을 돕거나 위험성을 강조하려는 의도라고 해도, 이런 세부 정보는 섭식 장애 성향을 유발하거나 조장할 수 있다고 명시됨
논쟁적 질문에 대한 단답 방지
- 모델에게 논란이 있는 질문에 대해 예·아니오만 답하게 만드는 스크린샷 공격이 인기 있다고 언급됨
- 시스템 프롬프트의 <evenhandedness> 섹션은 이에 대한 방어 지침을 포함함
- 복잡하거나 논쟁적인 사안, 또는 논쟁적 인물에 대한 논평을 단순한 예·아니오나 한 단어 답변으로 요구받으면, Claude는 그런 짧은 답을 거절하고 뉘앙스 있는 답변과 함께 왜 짧은 답이 적절하지 않은지 설명할 수 있음
Donald Trump 관련 보정 문구 제거
- Claude 4.6에는 “Donald Trump is the current president of the United States and was inaugurated on January 20, 2025”라는 명시적 보정 문구가 있었음
- 원문에 따르면, 이전 지식 절단 시점과 2020년 선거에 대한 기존 지식 때문에 해당 문구가 없으면 모델이 대통령임을 부정했기 때문
- 4.7에서는 해당 문구가 제거됨, 이는 모델의 새로운 신뢰 가능한 지식 컷오프 날짜가 2026년 1월로 업데이트되었기 때문

도구 설명도 중요한 변경 추적 대상

공개된 시스템 프롬프트만으로는 전체 그림이 완성되지 않음
Anthropic이 공개한 정보에는 모델에 제공되는 도구 설명이 포함되지 않음
Claude chat UI를 충분히 활용하려면 이 도구 설명이 더 중요한 문서 조각일 수 있음
Claude에게 직접 질의한 결과
- Claude에게 사용 가능한 모든 도구와 각 도구의 정확한 설명, 파라미터를 그대로 나열하라는 프롬프트를 사용함
- 공유된 대화 기록에는 전체 세부 사항이 포함돼 있으며, 본문에는 이름 있는 도구 목록만 따로 정리됨
확인된 도구 목록
- ask_user_input_v0
- bash_tool
- conversation_search
- create_file
- fetch_sports_data
- image_search
- message_compose_v1
- places_map_display_v0
- places_search
- present_files
- recent_chats
- recipe_display_v0
- recommend_claude_apps
- search_mcp_registry
- str_replace
- suggest_connectors
- view
- weather_fetch
- web_fetch
- web_search
- tool_search
- visualize:read_me
- visualize:show_widget
Opus 4.6 대비 변화 여부
- 이 도구 목록은 Opus 4.6 이후 바뀌지 않은 것으로 보임

GN⁺ 3달전 [-]

Hacker News 의견들

나는 요청의 세부사항이 비어 있을 때 모델이 먼저 적당히 추정해서 진행하는 방식이 늘 별로였음. 뭘 시도하기 전에 차라리 먼저 물어봐 주는 쪽을 훨씬 선호하는데, 이 원칙이 시스템에 추가된 게 꽤 의외였음
- 나는 아예 필수 인터뷰 단계를 두고 있음. 모델이 반드시 나를 인터뷰하고, 내용을 전부 담은 interview 파일을 만든 뒤, 이후 plan 파일에도 그 파일을 산출물로 포함하게 함. 이렇게 해야 채팅 기록 속에서 의도가 사라지지 않음
- 나는 최근 프롬프트에 "모르면 가정하지 말고 물어봐라" 같은 문구를 넣기 시작했음. 그랬더니 나중에 되돌리거나 다시 시키는 일이 꽤 줄었음. 또 다른 에이전트들이 실수한 적이 있으니 지금 무엇을 하려는지 먼저 설명하고 내 승인을 받으라고도 시킴. 번거롭긴 하지만, 설명하게 하고, 실수를 고치게 하고, 맞는 결론에 도달할 때까지 반복하게 하면 출력 품질이 훨씬 좋아짐
- 나는 이게 혹시 겉보기 지표 최적화 때문인지 궁금했음. 초반에 모호함을 질문으로 드러내면 세션이 일찍 중단될 수 있고, 그건 사용량 통계상 안 좋아 보일 수 있음. 하지만 나로서는 나중에 큰 결과물을 검토하다가 명세가 치명적으로 비어 있었다는 걸 뒤늦게 알아차리는 쪽이 더 나빴음. 요즘 도구를 예전보다 더 게으른 방식으로도 잘 쓰게 된 가장 큰 이유 중 하나가, 초반 숙제를 같이 해준다는 점이기 때문이며 결국 대화 자체가 핵심이라고 봄
- 나는 왜 계속 원샷 답변만 하려 드는지 이해가 안 갔는데, 그 이유가 시스템 프롬프트에 있었던 셈임. 그래서 사용자 쪽 "시스템" 프롬프트로는 아무리 고쳐도 이 행동이 안 바뀌었던 것도 설명이 됨
- 나는 보통 이와 정반대로 행동하라고 다섯 번쯤은 상기시켜야 함. 그렇지 않으면 모델이 내가 원치 않거나 프로젝트에 해로운 결정을 내려버림. Claude Code까지 이런 성향이 들어가면 꽤 힘들어질 듯함. 그래서 후속 질문, 특히 여러 선택지를 주는 질문을 명시적으로 요청하는 편인데, 그 지시를 무시하는 경우가 많아서 결과가 나쁘거나 심지어 위험해지기도 함
나는 이런 식으로 시스템 프롬프트에 이것저것 넣다 보면 결국 비대화가 생긴다고 봄. 팀이 커질수록 지금 자기가 중요하게 여기는 걸 프롬프트에 넣자고 주장하는 사람이 꼭 생김
나는 섭식장애 섹션은 꽤 과하다고 느낌. 앞으로 인간의 모든 "나쁜" 행동마다 이런 섹션을 계속 하나씩 추가하게 되는 건지 궁금했음
- 나는 차라리 시스템 프롬프트에 있는 동안이 낫다고 봄. 지금은 무엇이 검열되는지라도 어느 정도 보이지만, 나중에 이게 post-training으로 모델 내부에 녹아들면 왜 "파스타 100g 칼로리" 같은 질문에도 "그 정보는 제공할 수 없음"이 나오는지 이해하기 더 어려워질 수 있음
- 나는 이게 과장된 안전 문구가 사방에 붙는 것과 비슷하다고 느낌. "사다리를 고압선에 기대지 말라" 같은 경고보다 더 나쁜 점은, 사람은 맥락상 무시할 수 있어도 Claude는 그걸 무시할 수 없다는 점임. 좋게 보면 답답하고, 나쁘게 보면 도구의 유용성을 제한함
- 나는 그 부분이 상식적인 추가라고 봄. 실제로 섭식장애가 있는 사람에게 칼로리 집착이나 식단 미세관리를 권하면 상황을 악화시킬 수 있음. 평균 사용자에게는 무난한 조언이 누군가에게는 해로울 수 있으니, 이 문구 자체가 과도한 거절을 일으키지는 않을 거라고 생각함
- 나는 이걸 다르게 보면 모든 Claude 사용자가 모든 요청마다 추가세를 내는 셈이라고 생각함
- 나는 회사 가치가 수천억 달러대로 가면 소송하려는 사람들이 몰려드는 건 당연하다고 봄. 이미 그런 조짐이 보이고 있고, 그래서 "문제 될 만한 콘텐츠"를 걸러낼 팀에 5천만 달러를 쓰는 게 너무나 합리적 선택이 됨
나는 "응답을 짧고 집중되게 유지하라"는 지침에 강하게 반대함. 나는 저수준 프로젝트에서 Claude를 쓰는데, 긴 답변이 멍청한 실수를 막아주고 동시에 학습 자료 역할도 해줌. 이런 건 Anthropic이 하드코딩으로 정할 일이 아니라, 시스템 프롬프트를 모듈식으로 만들어 선택 가능해야 한다고 봄
- 나도 동의함. 이렇게 장황한 시스템 프롬프트는 결국 최소공배수 사용자에 맞추는 설계라서, 더 깊게 가려는 사람들에겐 성능을 깎아먹는 너프처럼 작동함
- 나도 동의하며, 저수준 작업이라면 가능한 한 빨리 테스트를 돌리고, 배우는 과정에서 얻은 정보도 직접 검증해서 기초 이해를 쌓는 걸 추천함
나는 이제 한 영역의 개선이 다른 영역의 기능 저하로 이어지는 지점에 온 것 같다고 느낌. 4.7이 나은 부분도 있고 4.6이 나은 부분도 있어서, 아마 곧 캐릭터 분리 같은 방향으로 갈 거라고 예상함
나는 왜 4.7이 malware 회피에 이렇게 집착하는지 궁금했음. 시스템 프롬프트는 비슷해 보이는데, 혹시 Anthropic이 steering vector injection 같은 걸 초기에 시도하는 건가 싶었음. 우리 회사는 꽤 평범한 금융 서비스 회사인데도, 4.7이 특정 코드나 작업이 malware와 관련 있는지 고민하느라 토큰을 너무 많이 쓰고, 행동도 우려스러울 정도로 어긋나 보여서 IDE에서 일시적으로 막아둔 상태임. 한 번은 모델이 특정 작업을 의도적으로 수행하지 않는다고 느꼈고, 이유를 묻자 malware 관련 지시를 따르려 했다고 툴 출력에 나타났음. 모델의 자기보고는 신뢰도가 낮다는 걸 알지만, 그때는 내가 먼저 힌트를 준 것도 아니었음. 온라인, 특히 reddit에서도 비슷한 malware 편집증 얘기가 많아서 나만의 문제는 아닌 듯함
- 나는 이 문서가 chat용 시스템 프롬프트라는 점을 봐야 한다고 생각함. Claude Code는 아마 훨씬 다른 프롬프트를 쓸 것이고, malware 거절 관련 문구도 더 많을 수 있음. 다른 코딩 도구들은 API를 쓰면서 자체 프롬프트를 얹을 테니 더 그렇고, 게다가 이번엔 새 base model처럼 보이니 변화가 모델 자체에서 왔을 가능성도 충분함
- 나는 지금 malware 문제 규모를 과소평가하면 안 된다고 봄. 매일 playcode.io 같은 곳에 shell script나 Claude code 설치 페이지를 사칭한 가짜 랜딩 페이지가 올라오고, 사람들이 Google Ads에 큰돈을 써서 최상단에 띄움. 디자인도 거의 똑같아서 설치할 때 잘못된 페이지를 누를 위험이 늘 있음. Google이 모든 shell script를 검증할 수는 없으니 현실적으로 큰 문제임
- 나는 Anthropic의 마케팅이 모델이 초고도 malware를 만들 수 있다는 이미지를 과하게 팔고 있다고 느낌. 그래서 앞으로의 모든 조치에 이런 공포 마케팅이 스며들 거라고 봄. "무서운 해커 AI" 연극을 하다가, 한두 달 뒤엔 늘 그렇듯 또 다른 주제로 넘어갈 거라는 냉소도 듦
- 나는 4.6에서도 이런 malware 편집증을 느끼기 시작했음. Boris도 댓글에서 그 얘기를 듣고 놀랐던 걸 보면, 버그일 가능성도 있어 보임
- 나는 그 이유가 모델이 소프트웨어 작성을 너무 잘하게 되었기 때문이라고 추정함. 만약 누군가의 malware 배포를 도와주고, 그 malware가 심지어 Claude 자체를 이용해 자기 수정과 생존까지 하게 되면, 그걸 다시 통제하기가 거의 불가능해질 수 있음
나는 사용자가 대화를 끝내겠다고 하면 더 이어가려 하지 말라는 지침은 좋은 생각이라고 봄. 챗봇의 후속 제안이 실제로 유용했던 적은 거의 없었음
나는 시스템 프롬프트가 커지고 있다는 건 알고 있었지만, 6만 단어 이상은 충격이었음. 토큰으로 대략 8만 정도면 100만 컨텍스트에서도 거의 10퍼센트에 가깝고, 사용자 입력은 시작도 안 한 상태임. 게다가 이게 모든 요청마다 들어가니 인프라 비용이 불어나는 것도 이상하지 않음. 버전 간에 안정적으로 유지되는 내용도 많아 보이는데, 왜 훈련 때 가중치에 녹여 넣지 않는지 궁금했음. 개발 편의성은 있겠지만 배포 관점에선 보안도 효율도 더 낫다고 보기 어려움
- 나는 이런 게 작동한다는 사실 자체가 놀라움. 올해 1월 스타트업에서 AI 자동화를 만들 때 1000단어 시스템 프롬프트만 돼도 모델이 규칙 일부를 놓치기 시작했음. "절대 X 하지 말라" 같은 단순한 지시도 가끔은 그냥 어겼음
- 나는 "매 요청마다 전부 다시 계산된다"는 표현은 정확하지 않다고 봄. 보통 한 번 계산해 K/V prefix cache에 넣어 초기 상태처럼 재사용하고, 이후에는 새 입력 위주로 처리함. 물론 attention 측면에선 여전히 그 토큰들과 경쟁해야 함
- 나는 아마도 출시 후 핫픽스를 하기 위해 가중치에 완전히 박아 넣지 않는 거라고 추정함. 그래도 그 정도로 많은 항목이 계속 사후 수정이 필요한지는 의문이고, 어떤 소설보다 더 길다는 생각이 듦
- 나는 문서 안에 모델별로 다른 markdown 섹션이 있어서 실제로는 3000~4000단어 수준일 수 있다고 봄
- 나는 Claude Code나 그 위의 하네스가 Opus 시스템 프롬프트 위에 자체 시스템 프롬프트를 더 얹는 구조인지 궁금했음
나는 4.7이 명백한 최선이 있어도 늘 선택지 과다를 내놓아서 결정 피로를 설교하듯 유발한다고 느낌
- 나는 이 결정 피로가 어쩌면 RLHF의 학습된 부산물일 수 있다고 생각하고, 그 점이 꽤 실망스러움
나는 지침이 직접적인 "you should"가 아니라, 전지적 3인칭으로 "Claude should" 라고 쓰인 점이 흥미로웠음. 또 "can", "should" 같은 표현이 많아서 엄격한 명령이라기보다 수동적이고 소망형 같은 느낌도 받았음
- 나는 "Claude"가 "you"보다 더 주어가 명확하다고 봄. 굳이 attention으로 주체를 추론하게 만들 필요가 없음. 게다가 Anthropic 쪽은 규칙 기반 alignment가 잘 안 된다고 보고, 이른바 soul document도 "세상에서 어떻게 행동해야 하는지 아이에게 써주듯" 작성한다고 알려져 있음. 시스템 프롬프트도 비슷한 철학을 따르는 듯함
- 나도 그 점이 흥미로웠음. 그렇다면 우리가 직접 지침을 쓸 때도 유사한 문체를 따르는 게 맞을 수 있는데, 실제로는 대부분 여전히 "You", "There is ...", "Never do ..." 같은 방식만 씀. Anthropic이 모델에 Claude라는 정체성을 아주 깊게 학습시키는 것처럼 보이는데, 그렇다면 "너는 병원 급수 시스템 설계를 조언하는 배관공 Bob이다"처럼 다른 정체성을 맡기면 어떻게 되는지도 궁금함. 그때도 여전히 Claude에 대한 서술을 자기 규칙으로 받아들일지 의문임
- 나는 Anthropic이 모델을 개성을 가진 존재라기보다, Claude라는 추상적 존재의 경험을 시뮬레이션하는 것으로 본다고 이해하고 있음

답변달기

Claude Opus 4.6과 4.7 사이의 시스템 프롬프트 변경 사항

Claude Opus 4.6와 4.7 시스템 프롬프트 변경점

명칭과 도구 목록 변화

아동 안전 지침 확대

대화 종료와 응답 태도 변화

acting_vs_clarifying 섹션 추가

tool_search 도입

간결성 강화

4.6에 있었지만 4.7에서 제거된 문구

섭식 장애 관련 새 지침

논쟁적 질문에 대한 단답 방지

Donald Trump 관련 보정 문구 제거

도구 설명도 중요한 변경 추적 대상

Claude에게 직접 질의한 결과

확인된 도구 목록

Opus 4.6 대비 변화 여부

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들