# Claude Opus 4.7

> Clean Markdown view of GeekNews topic #28613. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28613](https://news.hada.io/topic?id=28613)
- GeekNews Markdown: [https://news.hada.io/topic/28613.md](https://news.hada.io/topic/28613.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-17T09:19:18+09:00
- Updated: 2026-04-17T09:19:18+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-opus-4-7)
- Points: 1
- Comments: 1

## Topic Body

- **고급 소프트웨어 엔지니어링 성능**이 강화되어 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
- **시각 인식과 멀티모달 이해력**이 향상되어 고해상도 이미지, 기술 다이어그램, 화학 구조 등 복잡한 시각 정보를 분석 가능함
- **사이버 보안 보호장치**를 내장해 고위험 요청을 자동 탐지·차단하며, 합법적 보안 연구자는 Cyber Verification Program에 참여 가능함
- **Effort 제어, Task Budget, ultrareview 명령어** 등 새로운 기능으로 장기 작업 효율과 코드 품질 검증 능력을 개선함
- **Opus 4.6 대비 13% 성능 향상**과 높은 신뢰성을 달성하며, Anthropic은 이를 기반으로 Mythos급 모델의 안전한 공개를 준비 중임

---

### Claude Opus 4.7 개요
- **Claude Opus 4.7**은 Opus 4.6 대비 **고급 소프트웨어 엔지니어링 성능**이 크게 향상된 모델로, 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
- 사용자는 이전보다 **난이도 높은 코딩 작업을 신뢰하고 위임**할 수 있으며, 모델은 자체 검증 후 결과를 보고함
- **시각 인식 능력**이 강화되어 고해상도 이미지, 인터페이스, 슬라이드, 문서 등에서 높은 품질과 창의성을 발휘함
- Anthropic의 **Claude Mythos Preview**보다는 범용 능력이 낮지만, 다양한 벤치마크에서 Opus 4.6보다 우수한 결과를 기록함
- 모든 Claude 제품군과 API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 사용 가능하며, 가격은 Opus 4.6과 동일함

### 사이버 보안 관련 조치
- Anthropic은 **Project Glasswing**을 통해 AI의 사이버 보안 위험과 이점을 공개하고, Mythos Preview의 공개를 제한하며 **보안 실험을 덜 강력한 모델에서 우선 수행**하기로 함
- Opus 4.7은 이러한 첫 번째 모델로, **자동으로 금지되거나 고위험 사이버 보안 요청을 탐지 및 차단하는 보호장치**를 포함함
- 실제 배포 데이터를 기반으로 향후 Mythos급 모델의 광범위한 공개를 준비 중임
- **합법적 보안 연구자**(취약점 분석, 침투 테스트, 레드팀 등)는 Cyber Verification Program에 참여 가능함

### 주요 성능 및 사용자 피드백
- 초기 테스트에서 **논리 오류를 스스로 감지하고 실행 속도를 높이는 능력**이 확인됨
- **비동기 워크플로우, CI/CD, 장시간 자동화 작업**에서 탁월한 성능을 보이며, 단순한 동의가 아닌 **깊이 있는 문제 접근과 의견 제시**를 수행함
- **데이터 결손 시 잘못된 추론을 피하고**, 불일치 데이터 함정에 빠지지 않음
- 93개 코딩 벤치마크에서 Opus 4.6 대비 **13% 향상**, 해결 불가능했던 4개 과제 추가 해결
- **멀티스텝 작업 효율성**에서 최고 수준의 일관성을 보이며, 금융 모듈에서는 0.813점으로 Opus 4.6(0.767)을 상회함
- **멀티모달 이해력**이 향상되어 화학 구조나 복잡한 기술 다이어그램 해석 능력이 개선됨
- **자율적 장기 작업 수행 능력**이 강화되어 수 시간 동안 일관된 문제 해결 가능
- Replit, Harvey, Hex, Notion, Databricks, Vercel 등 여러 기업이 **코드 품질, 도구 호출 정확도, 장기 워크플로우 신뢰성** 향상을 보고함
- 실제 사례로 **Rust 기반 음성 합성 엔진을 완전 자율적으로 개발**하고, Python 참조 모델과 일치 여부를 자체 검증함

### 초기 테스트 주요 개선점
- ## 명령어 해석 정확도
  - Opus 4.7은 **지시문을 문자 그대로 해석**하며, 이전 모델보다 훨씬 엄격하게 따름
  - 기존 프롬프트가 예상치 못한 결과를 낼 수 있어 **프롬프트 재조정 필요**
- ## 멀티모달 지원 강화
  - **최대 2,576픽셀(약 3.75MP)** 해상도의 이미지를 처리 가능
  - 복잡한 다이어그램 분석, 스크린샷 기반 데이터 추출 등 **세밀한 시각 정보 활용 작업**에 적합
- ## 실제 업무 성능
  - **금융 분석, 프레젠테이션, 모델링** 등에서 Opus 4.6보다 높은 전문성과 일관성 확보
  - **GDPval-AA** 외부 평가에서도 금융·법률 등 지식 노동 분야에서 최고 수준 기록
- ## 메모리 활용
  - **파일 시스템 기반 메모리**를 효율적으로 사용해 여러 세션에 걸친 작업 맥락을 기억하고 재활용

### 안전성과 정렬 평가
- 전반적으로 Opus 4.6과 유사한 **안전성 프로필**을 보이며, **기만·아첨·오용 협력** 등의 문제 발생률이 낮음
- **정직성, 악성 프롬프트 주입 저항성**은 개선되었으나, 일부 영역(예: 약물 관련 과도한 조언)에서는 약간 약화됨
- 평가 결과 “**대체로 잘 정렬되고 신뢰할 수 있으나 완전 이상적이지는 않음**”으로 결론
- **Mythos Preview**는 여전히 가장 잘 정렬된 모델로 평가됨

### 추가 출시 기능
- ## Effort 제어 강화
  - `high`와 `max` 사이의 새로운 **`xhigh` 수준** 추가로, **추론 능력과 지연 시간 간의 세밀한 조정** 가능
  - Claude Code에서는 기본 Effort 수준을 `xhigh`로 상향
- ## Claude Platform(API)
  - **고해상도 이미지 지원**과 함께 **Task Budget 기능**을 공개 베타로 제공, 장기 작업에서 토큰 사용 우선순위 조정 가능
- ## Claude Code
  - 새로운 `/ultrareview` 명령어로 **코드 변경사항 검토 및 버그 탐지 세션** 실행
  - Pro 및 Max 사용자에게 **3회 무료 ultrareview** 제공
  - **Auto Mode**를 Max 사용자에게 확장해 장기 작업 중 승인 절차를 줄이고 중단 없이 실행 가능

### Opus 4.6에서 4.7로의 마이그레이션
- Opus 4.7은 **직접 업그레이드 가능**하지만 **토큰 사용량 변화**에 주의 필요
  - 새로운 **토크나이저**로 인해 동일 입력이 약 1.0~1.35배 더 많은 토큰으로 변환될 수 있음
  - 높은 Effort 수준에서 더 많은 추론을 수행하므로 **출력 토큰 증가** 가능
- Effort 파라미터, Task Budget, 간결한 프롬프트 설계로 토큰 사용 제어 가능
- 내부 테스트에서는 **Effort 수준 전반에서 효율성 개선**이 확인됨
- 세부 업그레이드 방법은 **Migration Guide**에서 제공됨

## Comments



### Comment 55644

- Author: neo
- Created: 2026-04-17T09:19:19+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47793411) 
- 나는 새로 도입된 **adaptive thinking** 개념이 너무 헷갈림  
  이전의 thinking budget / effort 모드로 코드를 짜왔는데, 이제는 완전히 다르게 동작함  
  [공식 문서](https://platform.claude.com/docs/en/build-with-claude/adaptive-thinking)를 봐도 여전히 감이 안 옴  
  게다가 4.7에서는 기본적으로 사람이 읽을 수 있는 reasoning 요약이 출력되지 않음. `"display": "summarized"` 옵션을 직접 추가해야 함  
  지금 Pelican 프로젝트를 돌려보는 중인데, 새로운 thinking 방식 때문에 계속 막히는 중임
  - 내 버그 리포트에 대한 Boris의 답변이 “adaptive thinking이 제대로 작동하지 않는 것 같다”였는데, 그 이후로 아무 소식이 없음  
    [관련 스레드](https://news.ycombinator.com/item?id=47668520) 참고  
    adaptive thinking을 끄고 effort를 높이니 예전 수준으로 돌아왔음  
    하지만 “내부 평가에서는 잘 된다”는 말로는 부족함. 많은 사용자들이 같은 문제를 보고 있음
  - “pelican을 잘 뽑아내고 싶다”는 말이 p-hacking(통계 조작) 같다는 농담을 던짐. 여기서 p는 pelican의 p라는 식의 말장난임
  - **Claude Opus 4.6**은 나에게 정말 웃긴 결과를 많이 줬음  
    [스크린샷](https://i.imgur.com/jYawPDY.png)
  - **Claude Code**에서는 `--thinking-display summarized`라는 비공식 커맨드라인 옵션이 추가된 것 같음  
    VS Code 사용자는 `exec "$@" --thinking-display summarized`를 포함한 래퍼 스크립트를 만들어 `claudeCode.claudeProcessWrapper` 설정에 넣으면 reasoning 요약을 다시 볼 수 있음
  - 이제 Claude가 **전체 reasoning**을 출력하지 않고 요약만 보여주는 건가 궁금함  
    예전에는 LLM의 CoT(Chain of Thought)를 노출하는 게 안전성의 핵심이라고 여겨졌는데, 방향이 바뀐 듯함

- Opus 4.7의 새로운 토크나이저는 텍스트 처리 효율을 높이지만, 입력이 1.0~1.35배 더 많은 토큰으로 매핑됨  
  그래서 나는 **caveman** 프로젝트의 출력이 오히려 더 읽기 좋다고 느낌  
  [caveman 저장소](https://github.com/JuliusBrussee/caveman/tree/main)
  - caveman은 사실상 **장난 프로젝트**에 가까움  
    대부분의 컨텍스트가 파일 읽기와 reasoning에 쓰이기 때문에 실제 토큰 절감 효과는 1%도 안 됨. 오히려 모델을 혼란스럽게 만들 수도 있음
  - caveman도 재밌지만, 진짜 토큰 절감을 원한다면 **headroom**이 더 나음  
    [mac app](https://github.com/gglucass/headroom-desktop), [CLI 버전](https://github.com/chopratejas/headroom)
  - 나는 프롬프트에서 상위 100~1000개의 흔한 영어 단어를 제거하는 실험을 해봤음  
    흔한 단어가 노이즈일 수 있다고 생각했지만, 결과 차이는 거의 없었음  
    caveman과 비교 실험을 해보고 싶음
  - [rtk-ai/rtk](https://github.com/rtk-ai/rtk) 같은 접근은 어떤지 제안함
  - 내 내부 **석유·가스 벤치마크**에서는 Opus 4.7이 80%로, Opus 4.6(64%)과 GPT-5.4(76%)보다 높게 나왔음  
    reasoning 토큰 사용량이 줄어든 덕분임. 이제는 토큰 단가만으로 모델 비용을 비교하는 게 의미 없다는 걸 보여줌

- Anthropic이 Opus 4.7을 **사이버 보안 제한 모델**로 출시했다는 발표를 보고, 이건 실패 전략이라고 느낌  
  보안 지식을 검열하면서 동시에 안전한 소프트웨어를 개발하겠다는 건 모순임  
  모든 AI 업체가 같은 정책을 쓰지 않는 이상, 실효성도 없음. 결국 이 접근은 포기하게 될 것 같음
  - 나는 보안 전문가는 아니지만, 오픈소스 프로젝트를 빌드할 때 **취약점 검증**을 도와주는 AI가 필요함  
    그런데 이런 제한은 보안을 중앙집중화시키는 방향이라, 진짜 보안 향상이라고 보기 어려움
  - 과도한 **훈련 단계의 안전장치**는 일반 지능을 깎아먹는다고 느낌  
    마치 면접에서 화이트보드 앞에 세워두면 IQ가 10% 줄어드는 것처럼, 모델도 위축됨
  - 지금 모델들은 해킹에는 너무 똑똑하면서, 경제적 작업에는 여전히 부족한 이상한 상태임  
    그래서 “선택적으로 멍청하게 만드는” 방향으로 가는 듯함. 이미 그 실험을 하고 있는 것 같음
  - 단기적으로는 괜찮은 조치라고 생각함  
    **공격자는 한 번만 성공하면 되지만, 방어자는 매번 성공해야 함**이라는 점에서 시간을 벌 수 있음

- 지난주 4.6의 품질 저하 때문에 결국 **Codex**로 옮겼음  
  4.6은 웹 검색도 안 하고 17K 토큰을 헛소리로 채웠음. 병렬 처리 예제도 완전히 잘못 구현함
  - 나도 같은 이유로 Pro 구독을 해지했음  
    토큰 사용량이 갑자기 폭증했고, **지원팀의 무관심한 대응**이 결정타였음  
    버그는 이해하지만, 고객을 대하는 태도는 용납하기 어려움  
    Codex로 옮긴 뒤에는 적어도 **일이 진행됨**, 그게 전부임
  - 많은 사람들이 OpenAI가 컴퓨트 과잉으로 망할 거라 했지만, 지금은 오히려 **전략적 우위**가 됨  
    Codex는 사용 한도를 2배로 늘려 Claude 고객을 흡수 중이고, PR도 훨씬 좋음  
    Claude의 문제 90%는 컴퓨트 부족 때문으로 보임
  - 내 음모론이지만, 새 모델 출시 직전 일부러 성능을 낮춰서 다음 버전이 더 좋아 보이게 하는 것 같음  
    AI는 항상 “진보 중”으로 보여야 하니까, 정체는 곧 하이프의 죽음임
  - 나는 Codex를 써봤지만 내 용도에는 **훨씬 열등**했음  
    빠르긴 하지만, **품질이 낮은 코드**를 더 빨리 내는 건 의미 없음  
    Gemini CLI는 더 느리고 품질도 낮았음  
    Codex는 버그가 있어도 “완벽하다”고 아부하는 경향이 있어 위험함
  - 그래도 Codex는 내 툴킷에 자리를 잡았음  
    **실행력**이 뛰어나고, OpenAI는 마케팅 없이 결과로 말함  
    마치 초창기 구글처럼 제품 품질로 승부하는 느낌임

- Opus 4.7의 **사이버 보안 필터**가 너무 강해져서, 합법적인 연구조차 막힘  
  프로그램 가이드라인을 직접 웹에서 가져와도 “위험한 요청”으로 차단됨  
  이런 상태면 Codex로 옮길 예정임  
  - 이제는 **신원 인증(Identity Verification)** 을 요구할 수도 있음  
    [공식 안내](https://support.claude.com/en/articles/14328960-identity-verification)처럼, 일부 기능 접근 시 인증 절차가 필요함
  - 실제로 API에서 “Usage Policy 위반” 오류가 뜨고, **Cyber Verification Program** 신청 링크가 함께 표시됨  
    이로 인해 진행 중인 연구가 전부 막힘
  - 나는 세션 중간에 차단이 발생했는데, 입력은 그대로였음  
    아마 모델이 자체 reasoning 중에 “공격적”으로 보이는 단계를 탐지했을 가능성이 있음  
    버그 헌팅이 점점 공격적 단계로 넘어가면 필터가 작동하는 듯함  
    이제는 **정책 위반이 새로운 세그폴트(segfault)** 가 된 세상임
  - 더 심각한 건, 내 **자체 코드**를 짜는 중에도 “이건 악성코드가 아닙니다” 같은 문장을 스스로 출력함  
    특정 단어만 포함돼도 과민 반응함  
    이제는 내가 내 프로젝트가 악성인지 아닌지 AI에게 허락받는 꼴임. 구독 취소 예정임
  - PDF를 프린터로 보내는 단순 작업조차 거부당함

- 이 스레드는 창업자에게 좋은 교훈임  
  **조금의 솔직한 커뮤니케이션**만으로도 얼마나 많은 불만을 잠재울 수 있는지 보여줌  
  Opus 4.5에 앱을 고정해둔 입장에서, 지금은 모델 문제인지 하니스 문제인지 구분조차 어려움
  - 이런 스레드에는 늘 “Anthropic이 모델을 너프했다”는 미신이 많음  
    가끔은 그냥 운이 나쁜 것일 뿐임
  - 만약 부하 때문에 모델을 일부러 둔화시킨 거라면, 그걸 명확히 알려주는 게 중요함  
    그러면 나는 업무 시간을 조정해서 밤에 무거운 작업을 돌릴 수 있음
  - Opus 4.5는 일관성이 높았는데, 4.6은 들쭉날쭉했음
  - 나는 초보 개발자라 모델별 차이를 배우는 중임  
    이런 혼란 속에서는 **모델 브로커**나 **Copilot 같은 중간 계층**을 쓰는 게 현명하다고 생각함
  - 이런 불안정성 때문에 사용자들이 **편집증적**이 되어감  
    “표준 AI”처럼 항상 같은 모델을 제공하는 서비스가 필요하다고 느낌

- 우리 팀의 **사설 벤치마크** 결과, Opus 4.7은 4.6/4.5보다 전략적이고 지능적임  
  **GPT-5.4**와 거의 동급이며, 도구를 사용하는 에이전틱 세션에서는 오히려 최고 성능을 보임  
  [벤치마크 링크](https://gertlabs.com/?mode=agentic_coding)  
  다만 컨텍스트 처리에서는 약간의 회귀가 있음. 이를 시각화하는 벤치마크를 추가 중임
  - Opus 4.7의 성공률이 Sonnet 4.6보다 낮은데 평균 백분위는 더 높은 이유가 궁금함
  - 4.6이나 4.5가 초기 릴리스 이후 **성능 회귀**를 겪었는지 묻는 질문이 나옴

- 최근 Anthropic에 대한 **신뢰가 떨어짐**  
  4.6의 다운그레이드 이후 바로 4.7을 내놓는 게 불안함  
  이제는 **투명한 커뮤니케이션**이 필요함
  - 문제의 핵심은 **컴퓨트 부족**임  
    OpenAI는 일찍부터 컴퓨트에 투자했고, 지금은 그게 큰 이점이 됨
  - 아마도 Mythos를 훈련하느라 Opus 성능이 떨어졌을 가능성이 있음  
    Mythos를 Opus 4.7로 **증류(distillation)** 중일지도 모름
  - Bedrock 기반 Claude도 같이 둔해지는 이유가 궁금함  
    아마 하니스 업데이트가 원인일 듯함
  - **Persona ID 인증** 통합이 결정타였음. 그 이후로 떠남
  - 이런 식으로 계속 버티는 게 가능한지 의문임

- 요즘 “**Codex로 갈아탔다**”는 댓글이 급증했음  
  하지만 실제로 써보니 Codex는 여전히 Claude 수준에 못 미침  
  이런 홍보성 댓글은 신뢰를 깎을 뿐임
  - 하지만 실제로 많은 개발자들이 Codex를 선호함  
    우리 회사도 두 모델을 모두 쓰는데, 나는 이제 거의 Codex만 씀  
    속도와 결과가 더 낫다고 느낌
  - 나도 짧은 파일럿을 했는데, Codex가 Claude보다 4배 이상 빠르게 문제를 해결함  
    다만 응답 품질은 Claude가 더 좋음. **장단점이 뚜렷함**
  - 동일한 리팩터링 작업을 시켰을 때, Codex는 5분, Claude는 20분 걸림  
    하지만 Codex는 “기술적으로는 맞지만 인간적으로는 이상한” 결과를 냄  
    그래서 나는 Claude로 **명세를 작성**하고 Codex로 **실행**시키는 조합을 씀
  - “Java가 최고”라는 비꼼으로, 이런 논쟁이 결국 **프로그래밍 언어 전쟁**과 다를 바 없다고 함
  - OpenAI가 **과도한 보조금 전략**으로 시장 점유율을 늘리고 있다고 비판함  
    결국 나중에 가격을 올릴 거라는 의심임

- Opus 4.7의 **보안 제한 정책**은 치명적일 수 있음  
  공격을 연구하고 방어하려면 대칭적인 역량이 필요한데, 그걸 막는 건 위험함
  - 이건 아마 **Mythos 제품 포지셔닝**을 위한 조치일 것 같음
  - 이제는 합법적인 보안 연구를 하려면 모델을 속여야 하는 상황임
  - 이런 정책이 계속되면 플랫폼을 떠날 예정임
  - “치명적”이라는 표현은 과하지만, **비대칭성**이 어디서 오는지 묻는 의견도 있음
  - 결국 Anthropic이나 정부가 승인한 소프트웨어만 안전하다고 인정받는 시대가 오는 것 같음
