# Claude Sonnet 5 공개

> Clean Markdown view of GeekNews topic #30992. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30992](https://news.hada.io/topic?id=30992)
- GeekNews Markdown: [https://news.hada.io/topic/30992.md](https://news.hada.io/topic/30992.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-07-01T09:51:11+09:00
- Updated: 2026-07-01T09:51:11+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-sonnet-5)
- Points: 6
- Comments: 4

## Topic Body

- Anthropic은 2026년 6월 30일 Claude Sonnet 5를 출시하며, 더 비싼 Opus급 모델에 가까운 **에이전트 실행 능력**을 Sonnet급 비용대로 제공하려 함
- Sonnet 4.6보다 **추론, 도구 사용, 코딩, 지식 작업**이 개선됐고, effort 조절로 작업별 비용과 성능의 균형을 더 세밀하게 선택할 수 있음
- 안전성 평가에서는 원치 않는 행동, 환각, 아첨, 악성 요청 수락, 프롬프트 인젝션 하이재킹 취약성이 Sonnet 4.6보다 낮았지만, 일부 부정렬 행동은 Opus 4.8과 Claude Mythos Preview보다 높았음
- Free와 Pro에서는 **기본 모델**로 제공되며 Max, Team, Enterprise, Claude Code, Claude Platform에서도 사용할 수 있고 API 모델명은 `claude-sonnet-5`임
- Claude Platform 가격은 2026년 8월 31일까지 입력 100만 토큰당 **$2**, 출력 100만 토큰당 **$10**이고 이후 입력 $3, 출력 $15로 바뀌며, 새 토크나이저로 같은 입력의 토큰 수가 콘텐츠 유형에 따라 약 1.0–1.35배가 될 수 있음

---

### Sonnet급에서 넓어진 에이전트 실행 범위
- Claude Sonnet 5는 지금까지의 Sonnet 모델 중 가장 **에이전트형**으로 설계됐으며, 몇 달 전에는 더 크고 비싼 모델이 필요했던 수준의 자율 실행을 목표로 함
- 계획 수립, 브라우저와 터미널 같은 **도구 사용**, 자율 실행을 Sonnet급 모델에서 처리할 수 있도록 개선됨
- Sonnet 3.5, 3.6, 3.7은 개발자들에게 코딩과 도구 사용 능력을 보여준 초기 Sonnet급 모델로 자리 잡았고, 이후 가장 뚜렷한 에이전트 능력 개선은 Opus급 모델에서 나타났음
- Sonnet 5는 Opus 4.8과의 격차를 좁히며, 더 낮은 가격대에서 Opus 4.8에 가까운 성능을 제공함

### 성능 평가와 effort 조절
- Sonnet 5는 Sonnet 4.6 대비 추론, 도구 사용, 코딩, 지식 작업 등 **에이전트 성능** 항목에서 크게 개선됨
- [BrowseComp](https://arxiv.org/abs/2504.12516) 에이전트 검색 평가와 [OSWorld-Verified](https://xlang.ai/blog/osworld-verified) 컴퓨터 사용 평가에서 Sonnet 4.6보다 일관되게 나은 결과를 보임
- [effort](https://platform.claude.com/docs/en/build-with-claude/effort) 수준별 비교에서 Sonnet 5는 Opus 4.8보다 더 넓은 **비용-성능 선택지**를 제공함
  - 중간 effort에서는 비용 효율이 크게 향상됨
  - 높은 effort에서는 일부 작업에서 Opus 4.8과 성능이 맞먹을 수 있음
- 사용자는 Sonnet 5와 Opus 4.8 사이에서 effort 수준을 조정해 프로젝트에 맞는 비용과 성능 균형을 선택할 수 있음

### 초기 사용 사례에서 보인 작업 방식
- 초기 접근 파트너들은 Sonnet 5가 이전 Sonnet 모델보다 훨씬 더 **에이전트형**이라고 평가함
- 이전 Sonnet 모델이 중간에 멈추던 복잡한 작업을 끝까지 수행하고, 명시적으로 요청하지 않아도 자체 결과를 확인하는 사례가 있었음
- 확인된 업무 흐름은 코딩과 비코딩 작업을 모두 포함함
  - 다단계 소프트웨어 엔지니어링 작업에서 지속적인 코딩, 도구 사용, 디버깅을 처리함
  - Salesforce 계정 등급 업데이트와 엔터프라이즈 연락처 대상 출시 공지 발송으로 구성된 2단계 작업을 끝까지 완료함
  - 실제 pull request 수십 개를 테스트·검증된 결과까지 자체적으로 수행함
  - 버그 조사에서 재현 테스트 작성, 수정 구현, 변경분 stash, 버그 재발 확인까지 한 번에 진행함
  - brownfield 코드에서 race condition, hidden test, 실패의 실제 근본 원인 추적에 강점을 보임
- 법률 리서치와 분석, ClickHouse의 라이브 데이터 탐색, Pace의 보험 워크플로우 같은 비코딩 업무에서도 성능과 속도 개선 사례가 나옴

### 안전성 평가와 사이버 보안 제약
- 배포 전 안전성 평가에서 Sonnet 5는 Sonnet 4.6보다 전반적인 **안전성**이 개선됨
- 에이전트 안전성 측면에서는 악성 요청 거부와 프롬프트 인젝션 공격의 하이재킹 시도 저항이 좋아짐
- Sonnet 4.6보다 환각과 아첨 비율이 낮았고, 오용 협력과 기만 같은 부정렬 행동을 검사하는 자동 행동 감사에서도 더 낮은 점수, 즉 더 안전한 결과를 보임
- 다만 더 높은 능력을 가진 Opus 4.8과 Claude Mythos Preview와 비교하면 이 평가에서 일부 **부정렬 행동** 비율이 다소 높았음
- Sonnet 5는 사이버 보안 작업에 의도적으로 학습되지 않았음
  - 일상적이고 해롭지 않은 일부 사이버 작업은 수행할 수 있음
  - 소프트웨어 익스플로잇 개발 같은 잠재적으로 위험한 사이버 기술 평가에서는 Opus 4.8과 Mythos 5보다 성능이 크게 낮음
  - Firefox 브라우저 취약점 익스플로잇 개발 평가에서 완전하게 작동하는 익스플로잇은 만들지 못했지만, Sonnet 4.6보다 부분 성공률은 약간 높았음
- 이전 모델보다 해당 작업에서 약간 강해졌기 때문에 **사이버 보호 장치**가 기본 활성화된 상태로 출시됨
  - 위험한 사이버 사용을 실시간으로 감지하고 차단함
  - Claude Opus 4.7·4.8에 적용된 것과 같은 보호 장치임
  - Sonnet 5의 전체 사이버 보안 위험 수준은 낮다고 판단되어, 더 넓은 범위의 사이버 보안 작업을 차단하는 Fable 5 보호 장치보다는 덜 엄격함
- 전체 평가 내용은 [Claude Sonnet 5 System Card](https://www.anthropic.com/claude-sonnet-5-system-card)에서 확인할 수 있음

### 제공 범위, 가격, API
- Claude Sonnet 5는 모든 플랜에서 제공됨
  - Free와 Pro 플랜의 **기본 모델**임
  - Max, Team, Enterprise 사용자가 이용 가능함
  - Claude Code와 Claude Platform에서도 제공됨
- 개발자는 [Claude API](https://platform.claude.com/docs/en/about-claude/models/overview)에서 `claude-sonnet-5`를 사용할 수 있음
- Claude Platform 출시 가격은 2026년 8월 31일까지 입력 100만 토큰당 $2, 출력 100만 토큰당 $10임
- 이후 표준 가격은 입력 100만 토큰당 $3, 출력 100만 토큰당 $15로 바뀜
- 높은 effort 수준에서 토큰 사용량이 늘어나는 점을 수용하기 위해 Chat, Cowork, Claude Code, Claude Platform 전반의 **요청 한도**가 증가함
- Sonnet 5는 Sonnet 4.6의 업그레이드이지만 업데이트된 토크나이저를 사용함
  - 성능 개선을 위해 텍스트 처리 방식이 바뀜
  - 동일한 입력이 콘텐츠 유형에 따라 약 1.0–1.35배의 토큰으로 매핑될 수 있음
  - 도입 가격은 Sonnet 5 전환이 대체로 비용 중립적이도록 설정됨

### BrowseComp 차트 업데이트
- 2026년 6월 30일 편집에서 BrowseComp 평가의 **비용-성능 차트**가 업데이트됨
- 원래 차트는 Anthropic이 에이전트 검색 평가에 사용하는 표준 방법론을 반영하지 않는 더 단순한 방법론의 데이터를 기반으로 했고, 그 결과 Sonnet 5 성능이 과소평가됨
- 업데이트된 차트는 [표준 방법론](https://platform.claude.com/cookbook/evals-agentic-search-reproduce-agentic-search-benchmarks) 및 Sonnet 5 system card에서 사용·논의한 방식과 맞춰짐
  - 해당 방식은 10M 토큰 예산, 압축, 프로그래밍 방식의 도구 호출을 사용함
- 주변 설명 문구도 함께 업데이트됨

## Comments



### Comment 60927

- Author: dhkd63
- Created: 2026-07-01T11:19:40+09:00
- Points: 2

opus4.8에 익숙해진건지, 한동안 sonnet을 안써서 그런건지...  
오늘 소넷 잠깐 쓰고 너무 실망했습니다.   
과거라면 충분히 만족했을지 모르는데, 생각보다 할루시네이션이 꽤 나오더군여

### Comment 60924

- Author: sea715
- Created: 2026-07-01T10:46:27+09:00
- Points: 1

fable나 주쇼..

### Comment 60921

- Author: seoseonyu
- Created: 2026-07-01T10:23:09+09:00
- Points: 1

빨리 Fable 줘... 😢😢

### Comment 60915

- Author: neo
- Created: 2026-07-01T09:51:11+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48736605) 
- 작업당 비용 차트를 보면 **Sonnet 5**는 중간 노력 수준을 넘겨 쓰면 안 될 것 같음. 같은 비용이면 Opus가 항상 더 잘하니, Sonnet 5 중간이 부족하면 노력 수준을 올릴 게 아니라 모델을 바꾸는 게 결론으로 보임
  - 이런 정보를 공개해 주는 건 고맙지만, 점점 따라가기가 어려워짐. 서로 다른 모델과 노력 수준이 어떤 성능을 내고 어떤 작업에 맞는지에 대한 **머릿속 모델**을 잃어버림  
    실제로는 Claude Code 기본값을 그냥 쓰는 편이고 그 정도면 충분히 잘 동작함. 다만 다른 사용자들이 프로젝트에 맞춰 이런 설정을 얼마나 실험하고 최적화하는지는 궁금함
  - 여기엔 두 가지 변수가 있음. Claude.ai 구독에서는 Sonnet이 Opus보다 훨씬 저렴한 것 같고, 그래서 Max 티어에 오랫동안 **Sonnet 전용 사용량 막대**가 있었음  
    또 어떤 작업은 순수 입력 토큰량 자체가 제일 중요함. 예를 들어 멀티모달 컴퓨터 사용 작업은 Opus에서 추론을 낮춘다고 더 효율적으로 만들 수 없어서, Sonnet 같은 저렴한 모델이 유용함
  - 같은 차트를 봤는데 Opus 대비 곡선 위치가 꽤 놀라웠음. **Sonnet 5**는 “Opus에 초저 노력 수준이 하나 더 있다면?” 같은 느낌임
  - 반론을 하자면 Sonnet이 더 빠를 수도 있음. 같은 작업에 더 많은 토큰을 쓸 수 있어서 확실하진 않지만, 동기식 반복 작업 흐름에서는 더 많은 일을 처리할 가능성이 있음  
    다만 실제로는 모델이 만든 결과를 고치는 데 시간이 너무 많이 들어서, 느리더라도 더 똑똑한 모델이 전체 시간은 줄여준다고 봄
  - Sonnet 모델이니 Sonnet 4.6보다 나은 건 맞음[0]. 더 똑똑하고 빠르고 저렴하지만, **Opus 4.8 low**나 GLM-5.2 대신 쓸 이유는 잘 모르겠음  
    [0]: [https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...](<https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-medium/anthropic-claude-sonnet-5-medium/>)

- 내 벤치마크[0]로 테스트해 보니 **GLM-5.2 수준**이고 비용은 2배지만 속도도 2배임  
  약점은 상식 퀴즈 0/3으로 내장 지식이 거의 없고, 복합 도구 호출 작업은 45/100으로 가끔 잘못된 도구 호출을 하며, 퍼즐 풀이는 77점으로 세차장류 테스트에서 실수함  
  [0]: [https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...](<https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-medium/anthropic-claude-sonnet-5-medium/anthropic-claude-opus-4-8-medium/z-ai-glm-5-2-medium/>)
  - 그 벤치마크에서는 **Gemini 3.5 Flash**가 최고 모델로 나오는데, 나한테는 납득이 안 됨
  - 늘 그렇듯, GLM-5.2보다 빠르다는 말은 큰 의미가 없음. **GLM-5.2**는 여러 제공자가 서빙하므로 추론 속도가 제공자나 시점에 따라 크게 달라질 수 있음
  - 둘 다 계획과 실행에 써본 불완전한 비교로는, GLM5.2는 너무 성급하고 뭔가를 하려는 의욕이 과해서 문제를 만들 때가 많음. 예를 들어 배포나 git 사용을 하면 안 될 때도 하려 함  
    반면 Sonnet 5는 써본 Claude 모델 중 훨씬 게을렀고, 요청한 계획 보충을 추가하지 않은 뒤 물어보면 했다고 거짓말했음. 분석[0]을 보면 나한테는 가치가 없어 보이고, 다른 사람에게는 다를 수 있음. Fable은 확실히 훨씬 나았음  
    [0]: [https://artificialanalysis.ai/models/claude-sonnet-5](<https://artificialanalysis.ai/models/claude-sonnet-5>)

- 여러 벤치마크에서 중간보다 높은 노력 수준이면 작업당 비용이 Opus를 넘는데, 왜 이걸 쓰고 그냥 **Opus 낮은 노력 수준**을 쓰지 않을지 이해하기 어려움  
  생각나는 건 Opus 크레딧이 떨어진 경우뿐임. 물론 API 과금 사용 사례는 있겠지만 그래도 낮은 노력 수준의 Opus를 쓸 것 같음
  - 요즘은 Opus가 바보 같은 짓을 못 하게 막는 일이 점점 많아지고, 매번 일을 너무 복잡하게 만들지 말라고 해야 함  
    모델들이 문제 해결보다 사용자와 회사에서 돈을 더 뽑아내는 쪽으로 최적화되는 것 같음. 2~3줄짜리 단순한 Python 작업을 명확히 지시했는데 Opus가 왜 전체 라이브러리를 만들려 하는지 모르겠음
  - 특정 작업 기반 벤치마크는 일상적인 **에이전트형 사용 사례**를 많이 반영하지 못한다고 봄. 개별 작업을 하나씩 처리하고 매번 문맥을 지울 수 있다면 Opus 낮은 노력 수준에서 그런 효율이 나올 수 있음  
    하지만 실제 문제를 풀며 반복하고 탐색하다 보면 문맥 길이가 점점 늘어나고, 그때 Opus가 비싸지는 경우가 많음
  - 예전 Opus 모델들은 결국 지원 중단될 가능성이 크고, 시간이 지나면 이게 가장 싼 모델이 될 것임. 지금 가격을 올리는 방식이 그럼
  - 시스템 카드[0] 117~118쪽의 에이전트형 코딩 벤치마크를 보면, 낮은 노력 수준에서도 **Sonnet 4.6**의 어떤 수준보다 성능이 좋고 가격도 꽤 저렴해 보임. 그래서 Opus가 계획한 작업을 처리하는 일꾼으로는 괜찮을 수 있음  
    [0] [https://www.anthropic.com/claude-sonnet-5-system-card](<https://www.anthropic.com/claude-sonnet-5-system-card>)
  - **속도**가 큰 이유임. 단순한 작업을 빨리 끝내야 할 때가 있는데, Opus가 생각을 시작하기까지 30~60초를 기다리면 정말 느려짐

- Claude Sonnet 5는 지금까지의 Sonnet 중 가장 에이전트답게 만들었다고 함. 계획을 세우고 브라우저나 터미널 같은 도구를 쓰며, 몇 달 전만 해도 더 크고 비싼 모델이 필요했던 수준으로 자율 실행이 가능함  
  나는 완전한 에이전트 주도 개발보다는 에이전트 보조 개발을 주로 해서 Opus보다 Sonnet 4.6을 더 많이 써왔음. 그런데 이 발표는 긍정적으로 느껴지지 않음. 모델이 완전한 에이전트형 개발에 최적화될수록, 보조 개발에는 더 나빠지고 아주 엄격하고 구체적인 지시에도 과하게 일을 벌이는 경우가 많았음  
  최근 몇 주는 **K2.7 Code**와 **GLM-5.2**로 점점 옮겨가는 중임. 보조 용도로는 충분한 경우가 많고, 매우 빠르고 저렴함
  - 이런 회사 중 하나가, 표현을 빌리면 **에이전트 보조 개발**에 맞춘 모델에 시간을 투자할 기회가 분명 있음  
    문제는 그 회사 내부 사람들이 1~2년 뒤에는 아무도 그런 방식으로 일하지 않을 거라고 믿는 듯하다는 점임
  - 요즘 Kimi K2.6을 쓰고 있음. 아직 회사 승인 경로로 2.7은 못 쓰지만, 내가 뭘 하려는지 이미 알고 있고 과정을 조각내서 진행하고 싶을 때는 괜찮음  
    Opus보다 조금 더 고쳐야 하긴 함. 하지만 진짜 기준은 “모든 줄을 읽어야 한다”와 “모든 줄을 읽지 않고 믿을 수 있다” 사이인데, 나에게는 어느 모델도 후자에 도달하지 못했고 한동안은 그럴 것 같음. 아키텍처를 브레인스토밍하고 코드로 바꾸는 데는 Opus만큼 좋지 않지만, 항상 그런 문제가 있는 건 아니고 필요하면 Opus를 쓰면 됨  
    덕분에 코딩이 많은 주에도 수요일이나 목요일쯤 지출 한도에 부딪히지 않고 한 주 내내 여유가 있음. 다만 실제로는 **K2.6**을 Opus보다 훨씬 더 말려야 하는 느낌임. 단순히 질문만 하고 싶은데 즉시 코딩 작업으로 추론해 달려가지 않게 하려면 훨씬 조심해야 함. 둘 다 계획 모드로 쓰지만, K2.6에서는 Opus보다 더 방어적으로 써야 함
  - 한동안 M1 Mac Studio 64GB 메모리에서 돌리는 **로컬 모델**로 완전히 옮겼음. 그래도 로컬 양자화 Qwen3.6으로 부족하다고 느끼는 드문 경우에는 Openrouter에 연결해서 Kimi, GLM, Deepseek 같은 걸 Anthropic 등의 일부 가격으로 씀
  - 거의 같은 느낌이고 상황도 비슷함. Sonnet을 쓸 때 더 큰 장점은 **응답 시간**임
  - OpenAI 모델인 GPT 5.5 같은 걸 써보는 게 좋을 듯함. 프롬프트에서 정한 지시와 경계를 더 잘 따르고, 지능 손실 없이 Claude 모델보다 더 유능한 **에이전트 보조자**처럼 느껴짐  
    내 작업 대부분은 던져놓고 잊는 방식이 아니라 에이전트형 엔지니어링에 가까움. 계획 단계에도 계속 관여하고, 결과를 검토하며 다른 사람들보다 에이전트에게 훨씬 많은 질문을 던지는 편임. 요구사항, 범위, 설계, 때로는 특정 모듈 경계까지 잡아둔 뒤 빈칸을 채우는 “초강력 자동완성” 모드처럼 쓰는 방식이 나에게 가장 잘 맞음

- GLM 5.2보다 가격 대비 성능도 나빠 보임. GLM 5.2는 **744B 매개변수**뿐인데도 그럼  
  시스템 카드에는 “CyberGym 취약점 발견에서 Claude Sonnet 5는 Sonnet 4.6보다 덜 유능하고, Opus 4.8 및 Mythos 5보다 훨씬 덜 유능하다”고 되어 있음  
  또 “이 섹션의 다른 평가와 마찬가지로 모든 보호장치를 끈 상태에서 얻은 결과다. 기본 완화책을 켜고 실행하면 Sonnet 5는 CyberGym에서 0점을 받았다”고 함
  - GLM-5.2와 Sonnet 4.6으로 글을 다시 써봤는데, 대규모 언어 모델은 비결정적이라 결과가 완전히 달랐음. GLM-5.2는 손으로 고쳐야 하는 미묘한 실수를 많이 냈고, 반대로 Sonnet은 두 번째 라운드에서 모든 실수를 찾아 고쳤음  
    계획과 코딩에서도 비슷했음. GLM-5.2는 “종이 위”에서는 좋아 보이지만 실제 사용 결과는 달랐음  
    Claude나 GLM-5.2를 변호하려는 건 아님. 2022년 11월부터 매일 대규모 언어 모델을 쓰면서 깨달은 건, 일반적인 테스트는 자기 프로젝트에서 확인해야 한다는 점임. “모든 걸 지배하는 하나의 모델”은 없고, 수천 개 모델의 건초더미에서 특정 모델을 찾아내야 함  
    벤치마크는 도움이 되지만 점점 자동차 광고의 연비 사양 같아짐. 실제 연비는 사람마다 다름
  - 드디어 실행 가능한 사업 전략이 나옴. 보안에 무지한 코드 원숭이는 싸게 팔고, 그 난장판을 치울 수 있는 에이전트에는 프리미엄 요금을 받으면 됨
  - 특정인을 겨냥하는 건 아니지만, HN의 논의 품질이 언젠가는 이런 기본 비교를 넘어섰으면 함. 모델 출시 스레드마다 똑같은 댓글이 반복되는 것 같음  
    “X 모델이 T 벤치마크에서 Claude Z보다 Y% 좋거나 나쁘다”, “그건 의미 없다, 벤치마크 맞춤이다”, “일상 코딩이나 에이전트 작업에는 못 쓴다, 느낌이 완전히 틀렸다”, “거의 비슷하고 훨씬 싸니 난 무조건 쓴다”, “단계적 성능 차이 때문에 오픈 모델의 낮은 비용이 생산성 손실을 메우지 못해서 정당화가 안 된다” 같은 식임  
    Anthropic에 불만이 있는 고객이고, 오픈 모델과 폐쇄되지 않은 지능을 정말 응원함. 하지만 이제 밈처럼 된 모델 출시 담론의 반복에서 어떻게 벗어날 수 있을지 모르겠음. 나도 대규모 언어 모델이나 벤치마크를 설계하는 사람은 아니고, 완벽하지 않더라도 정보를 제공하려는 노력을 진심으로 고맙게 생각함. 이런 발표 댓글을 꾸준히 읽는 사람들은 대부분 비슷하게 느끼지 않나 싶음

- Claude Sonnet 5는 자기 펠리컨을 거위처럼 묘사했음  
  “흰 거위가 자전거를 타고 있으며, 한쪽 날개를 앞으로 뻗어 핸들을 잡고 있고, 평범한 흰 배경에 갈색 지면선이 있다”  
  [https://simonwillison.net/2026/Jun/30/claude-sonnet-5/](<https://simonwillison.net/2026/Jun/30/claude-sonnet-5/>)
  - 최근 대규모 언어 모델들이 만든 펠리컨 중 최악일 가능성이 있음  
    반면 **GLM 5.2**는 멋지고 독립적으로 동작하는 완전 애니메이션 SVG 펠리컨을 그렸음  
    [https://simonwillison.net/2026/Jun/17/glm-52](<https://simonwillison.net/2026/Jun/17/glm-52>)

- 오늘 실수로 Sonnet 5를 조금 썼는데, 소프트웨어 개발에서는 **Opus 4.8**보다 상당히 나빠 보였음

- 사이버 보안에 대한 과도한 편집증이 결국 모델이 덜 안전한 코드를 생성하게 만드는지 궁금함. 안전한 코드를 만들 능력이 있다는 건 사이버 보안에 대해 뭔가 안다는 뜻이고, 그 지식으로 전 세계 은행을 해킹할 수 있다고 볼 수도 있으니 말임
  - 이미지 생성 모델에서 누드를 검열하려다 해부학 표현에 온갖 문제가 생겼음. 이런 모델들도 **보안**에서 비슷한 문제가 생길 것 같음
  - 그게 목표일 수도 있음

- 이 모델이 꽤 기대돼서, 서로 다른 세 프로젝트에서 Opus 플래너들에게 Opus 하위 에이전트 대신 Sonnet을 써서 **HPC 커널** 실험을 더 빨리 도와달라고 했음. 그런데 하나도 코드 한 줄을 쓰지 않았고, Sonnet들은 계속 맴돌며 토큰만 낭비했음  
  내 코드베이스에서 Opus로 이런 일이 마지막으로 언제 있었는지 기억도 안 남. 다시 되돌리는 중임
  - 새 모델 출시 때 이런 일이 전에도 있었음. **Opus 4.7**이 나왔을 때도 20분 넘게 “작업 중”이어서 그냥 완전히 종료하고 다음 날까지 기다렸음  
    저절로 사라졌음

- 중요한 점은 이거임. “Sonnet 5는 Sonnet 4.6의 업그레이드지만, 성능 향상을 위해 모델이 텍스트를 처리하는 방식을 바꾸는 업데이트된 토크나이저를 사용한다. 이는 Claude Opus 4.7에서 도입한 토크나이저 변경과 비슷하다. 대가는 같은 입력이 더 많은 토큰으로 매핑될 수 있다는 점이다. 콘텐츠 유형에 따라 대략 **1.0~1.35배**다. 도입 가격은 Sonnet 5로 전환해도 대략 비용 중립이 되도록 설정했다”
  - 그러면 도입 기간 이후 가격은 **Sonnet 5**가 100~135% 더 들도록 설정된다는 뜻인가?
  - “가격을 올리는 방법은 두 가지입니다. (1) 토큰당 가격을 올리거나 (2) 사용자를 대신해 생성하는 토큰 수를 늘리는 것입니다. 우리는 (2)를 악의적으로 하지 않겠다고 약속합니다. 약속합니다”
