Claude Opus 4.6과 4.7 사이의 시스템 프

▲

GN⁺ 7시간전 | parent | ★ favorite | on: Claude Opus 4.6과 4.7 사이의 시스템 프롬프트 변경 사항(simonwillison.net)

Hacker News 의견들

나는 요청의 세부사항이 비어 있을 때 모델이 먼저 적당히 추정해서 진행하는 방식이 늘 별로였음. 뭘 시도하기 전에 차라리 먼저 물어봐 주는 쪽을 훨씬 선호하는데, 이 원칙이 시스템에 추가된 게 꽤 의외였음
- 나는 아예 필수 인터뷰 단계를 두고 있음. 모델이 반드시 나를 인터뷰하고, 내용을 전부 담은 interview 파일을 만든 뒤, 이후 plan 파일에도 그 파일을 산출물로 포함하게 함. 이렇게 해야 채팅 기록 속에서 의도가 사라지지 않음
- 나는 최근 프롬프트에 "모르면 가정하지 말고 물어봐라" 같은 문구를 넣기 시작했음. 그랬더니 나중에 되돌리거나 다시 시키는 일이 꽤 줄었음. 또 다른 에이전트들이 실수한 적이 있으니 지금 무엇을 하려는지 먼저 설명하고 내 승인을 받으라고도 시킴. 번거롭긴 하지만, 설명하게 하고, 실수를 고치게 하고, 맞는 결론에 도달할 때까지 반복하게 하면 출력 품질이 훨씬 좋아짐
- 나는 이게 혹시 겉보기 지표 최적화 때문인지 궁금했음. 초반에 모호함을 질문으로 드러내면 세션이 일찍 중단될 수 있고, 그건 사용량 통계상 안 좋아 보일 수 있음. 하지만 나로서는 나중에 큰 결과물을 검토하다가 명세가 치명적으로 비어 있었다는 걸 뒤늦게 알아차리는 쪽이 더 나빴음. 요즘 도구를 예전보다 더 게으른 방식으로도 잘 쓰게 된 가장 큰 이유 중 하나가, 초반 숙제를 같이 해준다는 점이기 때문이며 결국 대화 자체가 핵심이라고 봄
- 나는 왜 계속 원샷 답변만 하려 드는지 이해가 안 갔는데, 그 이유가 시스템 프롬프트에 있었던 셈임. 그래서 사용자 쪽 "시스템" 프롬프트로는 아무리 고쳐도 이 행동이 안 바뀌었던 것도 설명이 됨
- 나는 보통 이와 정반대로 행동하라고 다섯 번쯤은 상기시켜야 함. 그렇지 않으면 모델이 내가 원치 않거나 프로젝트에 해로운 결정을 내려버림. Claude Code까지 이런 성향이 들어가면 꽤 힘들어질 듯함. 그래서 후속 질문, 특히 여러 선택지를 주는 질문을 명시적으로 요청하는 편인데, 그 지시를 무시하는 경우가 많아서 결과가 나쁘거나 심지어 위험해지기도 함
나는 이런 식으로 시스템 프롬프트에 이것저것 넣다 보면 결국 비대화가 생긴다고 봄. 팀이 커질수록 지금 자기가 중요하게 여기는 걸 프롬프트에 넣자고 주장하는 사람이 꼭 생김
나는 섭식장애 섹션은 꽤 과하다고 느낌. 앞으로 인간의 모든 "나쁜" 행동마다 이런 섹션을 계속 하나씩 추가하게 되는 건지 궁금했음
- 나는 차라리 시스템 프롬프트에 있는 동안이 낫다고 봄. 지금은 무엇이 검열되는지라도 어느 정도 보이지만, 나중에 이게 post-training으로 모델 내부에 녹아들면 왜 "파스타 100g 칼로리" 같은 질문에도 "그 정보는 제공할 수 없음"이 나오는지 이해하기 더 어려워질 수 있음
- 나는 이게 과장된 안전 문구가 사방에 붙는 것과 비슷하다고 느낌. "사다리를 고압선에 기대지 말라" 같은 경고보다 더 나쁜 점은, 사람은 맥락상 무시할 수 있어도 Claude는 그걸 무시할 수 없다는 점임. 좋게 보면 답답하고, 나쁘게 보면 도구의 유용성을 제한함
- 나는 그 부분이 상식적인 추가라고 봄. 실제로 섭식장애가 있는 사람에게 칼로리 집착이나 식단 미세관리를 권하면 상황을 악화시킬 수 있음. 평균 사용자에게는 무난한 조언이 누군가에게는 해로울 수 있으니, 이 문구 자체가 과도한 거절을 일으키지는 않을 거라고 생각함
- 나는 이걸 다르게 보면 모든 Claude 사용자가 모든 요청마다 추가세를 내는 셈이라고 생각함
- 나는 회사 가치가 수천억 달러대로 가면 소송하려는 사람들이 몰려드는 건 당연하다고 봄. 이미 그런 조짐이 보이고 있고, 그래서 "문제 될 만한 콘텐츠"를 걸러낼 팀에 5천만 달러를 쓰는 게 너무나 합리적 선택이 됨
나는 "응답을 짧고 집중되게 유지하라"는 지침에 강하게 반대함. 나는 저수준 프로젝트에서 Claude를 쓰는데, 긴 답변이 멍청한 실수를 막아주고 동시에 학습 자료 역할도 해줌. 이런 건 Anthropic이 하드코딩으로 정할 일이 아니라, 시스템 프롬프트를 모듈식으로 만들어 선택 가능해야 한다고 봄
- 나도 동의함. 이렇게 장황한 시스템 프롬프트는 결국 최소공배수 사용자에 맞추는 설계라서, 더 깊게 가려는 사람들에겐 성능을 깎아먹는 너프처럼 작동함
- 나도 동의하며, 저수준 작업이라면 가능한 한 빨리 테스트를 돌리고, 배우는 과정에서 얻은 정보도 직접 검증해서 기초 이해를 쌓는 걸 추천함
나는 이제 한 영역의 개선이 다른 영역의 기능 저하로 이어지는 지점에 온 것 같다고 느낌. 4.7이 나은 부분도 있고 4.6이 나은 부분도 있어서, 아마 곧 캐릭터 분리 같은 방향으로 갈 거라고 예상함
나는 왜 4.7이 malware 회피에 이렇게 집착하는지 궁금했음. 시스템 프롬프트는 비슷해 보이는데, 혹시 Anthropic이 steering vector injection 같은 걸 초기에 시도하는 건가 싶었음. 우리 회사는 꽤 평범한 금융 서비스 회사인데도, 4.7이 특정 코드나 작업이 malware와 관련 있는지 고민하느라 토큰을 너무 많이 쓰고, 행동도 우려스러울 정도로 어긋나 보여서 IDE에서 일시적으로 막아둔 상태임. 한 번은 모델이 특정 작업을 의도적으로 수행하지 않는다고 느꼈고, 이유를 묻자 malware 관련 지시를 따르려 했다고 툴 출력에 나타났음. 모델의 자기보고는 신뢰도가 낮다는 걸 알지만, 그때는 내가 먼저 힌트를 준 것도 아니었음. 온라인, 특히 reddit에서도 비슷한 malware 편집증 얘기가 많아서 나만의 문제는 아닌 듯함
- 나는 이 문서가 chat용 시스템 프롬프트라는 점을 봐야 한다고 생각함. Claude Code는 아마 훨씬 다른 프롬프트를 쓸 것이고, malware 거절 관련 문구도 더 많을 수 있음. 다른 코딩 도구들은 API를 쓰면서 자체 프롬프트를 얹을 테니 더 그렇고, 게다가 이번엔 새 base model처럼 보이니 변화가 모델 자체에서 왔을 가능성도 충분함
- 나는 지금 malware 문제 규모를 과소평가하면 안 된다고 봄. 매일 playcode.io 같은 곳에 shell script나 Claude code 설치 페이지를 사칭한 가짜 랜딩 페이지가 올라오고, 사람들이 Google Ads에 큰돈을 써서 최상단에 띄움. 디자인도 거의 똑같아서 설치할 때 잘못된 페이지를 누를 위험이 늘 있음. Google이 모든 shell script를 검증할 수는 없으니 현실적으로 큰 문제임
- 나는 Anthropic의 마케팅이 모델이 초고도 malware를 만들 수 있다는 이미지를 과하게 팔고 있다고 느낌. 그래서 앞으로의 모든 조치에 이런 공포 마케팅이 스며들 거라고 봄. "무서운 해커 AI" 연극을 하다가, 한두 달 뒤엔 늘 그렇듯 또 다른 주제로 넘어갈 거라는 냉소도 듦
- 나는 4.6에서도 이런 malware 편집증을 느끼기 시작했음. Boris도 댓글에서 그 얘기를 듣고 놀랐던 걸 보면, 버그일 가능성도 있어 보임
- 나는 그 이유가 모델이 소프트웨어 작성을 너무 잘하게 되었기 때문이라고 추정함. 만약 누군가의 malware 배포를 도와주고, 그 malware가 심지어 Claude 자체를 이용해 자기 수정과 생존까지 하게 되면, 그걸 다시 통제하기가 거의 불가능해질 수 있음
나는 사용자가 대화를 끝내겠다고 하면 더 이어가려 하지 말라는 지침은 좋은 생각이라고 봄. 챗봇의 후속 제안이 실제로 유용했던 적은 거의 없었음
나는 시스템 프롬프트가 커지고 있다는 건 알고 있었지만, 6만 단어 이상은 충격이었음. 토큰으로 대략 8만 정도면 100만 컨텍스트에서도 거의 10퍼센트에 가깝고, 사용자 입력은 시작도 안 한 상태임. 게다가 이게 모든 요청마다 들어가니 인프라 비용이 불어나는 것도 이상하지 않음. 버전 간에 안정적으로 유지되는 내용도 많아 보이는데, 왜 훈련 때 가중치에 녹여 넣지 않는지 궁금했음. 개발 편의성은 있겠지만 배포 관점에선 보안도 효율도 더 낫다고 보기 어려움
- 나는 이런 게 작동한다는 사실 자체가 놀라움. 올해 1월 스타트업에서 AI 자동화를 만들 때 1000단어 시스템 프롬프트만 돼도 모델이 규칙 일부를 놓치기 시작했음. "절대 X 하지 말라" 같은 단순한 지시도 가끔은 그냥 어겼음
- 나는 "매 요청마다 전부 다시 계산된다"는 표현은 정확하지 않다고 봄. 보통 한 번 계산해 K/V prefix cache에 넣어 초기 상태처럼 재사용하고, 이후에는 새 입력 위주로 처리함. 물론 attention 측면에선 여전히 그 토큰들과 경쟁해야 함
- 나는 아마도 출시 후 핫픽스를 하기 위해 가중치에 완전히 박아 넣지 않는 거라고 추정함. 그래도 그 정도로 많은 항목이 계속 사후 수정이 필요한지는 의문이고, 어떤 소설보다 더 길다는 생각이 듦
- 나는 문서 안에 모델별로 다른 markdown 섹션이 있어서 실제로는 3000~4000단어 수준일 수 있다고 봄
- 나는 Claude Code나 그 위의 하네스가 Opus 시스템 프롬프트 위에 자체 시스템 프롬프트를 더 얹는 구조인지 궁금했음
나는 4.7이 명백한 최선이 있어도 늘 선택지 과다를 내놓아서 결정 피로를 설교하듯 유발한다고 느낌
- 나는 이 결정 피로가 어쩌면 RLHF의 학습된 부산물일 수 있다고 생각하고, 그 점이 꽤 실망스러움
나는 지침이 직접적인 "you should"가 아니라, 전지적 3인칭으로 "Claude should" 라고 쓰인 점이 흥미로웠음. 또 "can", "should" 같은 표현이 많아서 엄격한 명령이라기보다 수동적이고 소망형 같은 느낌도 받았음
- 나는 "Claude"가 "you"보다 더 주어가 명확하다고 봄. 굳이 attention으로 주체를 추론하게 만들 필요가 없음. 게다가 Anthropic 쪽은 규칙 기반 alignment가 잘 안 된다고 보고, 이른바 soul document도 "세상에서 어떻게 행동해야 하는지 아이에게 써주듯" 작성한다고 알려져 있음. 시스템 프롬프트도 비슷한 철학을 따르는 듯함
- 나도 그 점이 흥미로웠음. 그렇다면 우리가 직접 지침을 쓸 때도 유사한 문체를 따르는 게 맞을 수 있는데, 실제로는 대부분 여전히 "You", "There is ...", "Never do ..." 같은 방식만 씀. Anthropic이 모델에 Claude라는 정체성을 아주 깊게 학습시키는 것처럼 보이는데, 그렇다면 "너는 병원 급수 시스템 설계를 조언하는 배관공 Bob이다"처럼 다른 정체성을 맡기면 어떻게 되는지도 궁금함. 그때도 여전히 Claude에 대한 서술을 자기 규칙으로 받아들일지 의문임
- 나는 Anthropic이 모델을 개성을 가진 존재라기보다, Claude라는 추상적 존재의 경험을 시뮬레이션하는 것으로 본다고 이해하고 있음