Claude Opus 4.7

(anthropic.com)

4P by GN⁺ 3달전 | ★ favorite | 댓글 1개

고급 소프트웨어 엔지니어링 성능이 강화되어 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
시각 인식과 멀티모달 이해력이 향상되어 고해상도 이미지, 기술 다이어그램, 화학 구조 등 복잡한 시각 정보를 분석 가능함
사이버 보안 보호장치를 내장해 고위험 요청을 자동 탐지·차단하며, 합법적 보안 연구자는 Cyber Verification Program에 참여 가능함
Effort 제어, Task Budget, ultrareview 명령어 등 새로운 기능으로 장기 작업 효율과 코드 품질 검증 능력을 개선함
Opus 4.6 대비 13% 성능 향상과 높은 신뢰성을 달성하며, Anthropic은 이를 기반으로 Mythos급 모델의 안전한 공개를 준비 중임

Claude Opus 4.7 개요

Claude Opus 4.7은 Opus 4.6 대비 고급 소프트웨어 엔지니어링 성능이 크게 향상된 모델로, 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
사용자는 이전보다 난이도 높은 코딩 작업을 신뢰하고 위임할 수 있으며, 모델은 자체 검증 후 결과를 보고함
시각 인식 능력이 강화되어 고해상도 이미지, 인터페이스, 슬라이드, 문서 등에서 높은 품질과 창의성을 발휘함
Anthropic의 Claude Mythos Preview보다는 범용 능력이 낮지만, 다양한 벤치마크에서 Opus 4.6보다 우수한 결과를 기록함
모든 Claude 제품군과 API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 사용 가능하며, 가격은 Opus 4.6과 동일함

사이버 보안 관련 조치

Anthropic은 Project Glasswing을 통해 AI의 사이버 보안 위험과 이점을 공개하고, Mythos Preview의 공개를 제한하며 보안 실험을 덜 강력한 모델에서 우선 수행하기로 함
Opus 4.7은 이러한 첫 번째 모델로, 자동으로 금지되거나 고위험 사이버 보안 요청을 탐지 및 차단하는 보호장치를 포함함
실제 배포 데이터를 기반으로 향후 Mythos급 모델의 광범위한 공개를 준비 중임
합법적 보안 연구자(취약점 분석, 침투 테스트, 레드팀 등)는 Cyber Verification Program에 참여 가능함

주요 성능 및 사용자 피드백

초기 테스트에서 논리 오류를 스스로 감지하고 실행 속도를 높이는 능력이 확인됨
비동기 워크플로우, CI/CD, 장시간 자동화 작업에서 탁월한 성능을 보이며, 단순한 동의가 아닌 깊이 있는 문제 접근과 의견 제시를 수행함
데이터 결손 시 잘못된 추론을 피하고, 불일치 데이터 함정에 빠지지 않음
93개 코딩 벤치마크에서 Opus 4.6 대비 13% 향상, 해결 불가능했던 4개 과제 추가 해결
멀티스텝 작업 효율성에서 최고 수준의 일관성을 보이며, 금융 모듈에서는 0.813점으로 Opus 4.6(0.767)을 상회함
멀티모달 이해력이 향상되어 화학 구조나 복잡한 기술 다이어그램 해석 능력이 개선됨
자율적 장기 작업 수행 능력이 강화되어 수 시간 동안 일관된 문제 해결 가능
Replit, Harvey, Hex, Notion, Databricks, Vercel 등 여러 기업이 코드 품질, 도구 호출 정확도, 장기 워크플로우 신뢰성 향상을 보고함
실제 사례로 Rust 기반 음성 합성 엔진을 완전 자율적으로 개발하고, Python 참조 모델과 일치 여부를 자체 검증함

초기 테스트 주요 개선점

명령어 해석 정확도
- Opus 4.7은 지시문을 문자 그대로 해석하며, 이전 모델보다 훨씬 엄격하게 따름
- 기존 프롬프트가 예상치 못한 결과를 낼 수 있어 프롬프트 재조정 필요
멀티모달 지원 강화
- 최대 2,576픽셀(약 3.75MP) 해상도의 이미지를 처리 가능
- 복잡한 다이어그램 분석, 스크린샷 기반 데이터 추출 등 세밀한 시각 정보 활용 작업에 적합
실제 업무 성능
- 금융 분석, 프레젠테이션, 모델링 등에서 Opus 4.6보다 높은 전문성과 일관성 확보
- GDPval-AA 외부 평가에서도 금융·법률 등 지식 노동 분야에서 최고 수준 기록
메모리 활용
- 파일 시스템 기반 메모리를 효율적으로 사용해 여러 세션에 걸친 작업 맥락을 기억하고 재활용

안전성과 정렬 평가

전반적으로 Opus 4.6과 유사한 안전성 프로필을 보이며, 기만·아첨·오용 협력 등의 문제 발생률이 낮음
정직성, 악성 프롬프트 주입 저항성은 개선되었으나, 일부 영역(예: 약물 관련 과도한 조언)에서는 약간 약화됨
평가 결과 “대체로 잘 정렬되고 신뢰할 수 있으나 완전 이상적이지는 않음”으로 결론
Mythos Preview는 여전히 가장 잘 정렬된 모델로 평가됨

추가 출시 기능

Effort 제어 강화
- high와 max 사이의 새로운 xhigh 수준 추가로, 추론 능력과 지연 시간 간의 세밀한 조정 가능
- Claude Code에서는 기본 Effort 수준을 xhigh로 상향
Claude Platform(API)
- 고해상도 이미지 지원과 함께 Task Budget 기능을 공개 베타로 제공, 장기 작업에서 토큰 사용 우선순위 조정 가능
Claude Code
- 새로운 /ultrareview 명령어로 코드 변경사항 검토 및 버그 탐지 세션 실행
- Pro 및 Max 사용자에게 3회 무료 ultrareview 제공
- Auto Mode를 Max 사용자에게 확장해 장기 작업 중 승인 절차를 줄이고 중단 없이 실행 가능

Opus 4.6에서 4.7로의 마이그레이션

Opus 4.7은 직접 업그레이드 가능하지만 토큰 사용량 변화에 주의 필요
- 새로운 토크나이저로 인해 동일 입력이 약 1.0~1.35배 더 많은 토큰으로 변환될 수 있음
- 높은 Effort 수준에서 더 많은 추론을 수행하므로 출력 토큰 증가 가능
Effort 파라미터, Task Budget, 간결한 프롬프트 설계로 토큰 사용 제어 가능
내부 테스트에서는 Effort 수준 전반에서 효율성 개선이 확인됨
세부 업그레이드 방법은 Migration Guide에서 제공됨

GN⁺ 3달전 [-]

Hacker News 의견들

나는 새로 도입된 adaptive thinking 개념이 너무 헷갈림
이전의 thinking budget / effort 모드로 코드를 짜왔는데, 이제는 완전히 다르게 동작함
공식 문서를 봐도 여전히 감이 안 옴
게다가 4.7에서는 기본적으로 사람이 읽을 수 있는 reasoning 요약이 출력되지 않음. "display": "summarized" 옵션을 직접 추가해야 함
지금 Pelican 프로젝트를 돌려보는 중인데, 새로운 thinking 방식 때문에 계속 막히는 중임
- 내 버그 리포트에 대한 Boris의 답변이 “adaptive thinking이 제대로 작동하지 않는 것 같다”였는데, 그 이후로 아무 소식이 없음
  관련 스레드 참고
  adaptive thinking을 끄고 effort를 높이니 예전 수준으로 돌아왔음
  하지만 “내부 평가에서는 잘 된다”는 말로는 부족함. 많은 사용자들이 같은 문제를 보고 있음
- “pelican을 잘 뽑아내고 싶다”는 말이 p-hacking(통계 조작) 같다는 농담을 던짐. 여기서 p는 pelican의 p라는 식의 말장난임
- Claude Opus 4.6은 나에게 정말 웃긴 결과를 많이 줬음
  스크린샷
- Claude Code에서는 --thinking-display summarized라는 비공식 커맨드라인 옵션이 추가된 것 같음
  VS Code 사용자는 exec "$@" --thinking-display summarized를 포함한 래퍼 스크립트를 만들어 claudeCode.claudeProcessWrapper 설정에 넣으면 reasoning 요약을 다시 볼 수 있음
- 이제 Claude가 전체 reasoning을 출력하지 않고 요약만 보여주는 건가 궁금함
  예전에는 LLM의 CoT(Chain of Thought)를 노출하는 게 안전성의 핵심이라고 여겨졌는데, 방향이 바뀐 듯함
Opus 4.7의 새로운 토크나이저는 텍스트 처리 효율을 높이지만, 입력이 1.0~1.35배 더 많은 토큰으로 매핑됨
그래서 나는 caveman 프로젝트의 출력이 오히려 더 읽기 좋다고 느낌
caveman 저장소
- caveman은 사실상 장난 프로젝트에 가까움
  대부분의 컨텍스트가 파일 읽기와 reasoning에 쓰이기 때문에 실제 토큰 절감 효과는 1%도 안 됨. 오히려 모델을 혼란스럽게 만들 수도 있음
- caveman도 재밌지만, 진짜 토큰 절감을 원한다면 headroom이 더 나음
  mac app, CLI 버전
- 나는 프롬프트에서 상위 100~1000개의 흔한 영어 단어를 제거하는 실험을 해봤음
  흔한 단어가 노이즈일 수 있다고 생각했지만, 결과 차이는 거의 없었음
  caveman과 비교 실험을 해보고 싶음
- rtk-ai/rtk 같은 접근은 어떤지 제안함
- 내 내부 석유·가스 벤치마크에서는 Opus 4.7이 80%로, Opus 4.6(64%)과 GPT-5.4(76%)보다 높게 나왔음
  reasoning 토큰 사용량이 줄어든 덕분임. 이제는 토큰 단가만으로 모델 비용을 비교하는 게 의미 없다는 걸 보여줌
Anthropic이 Opus 4.7을 사이버 보안 제한 모델로 출시했다는 발표를 보고, 이건 실패 전략이라고 느낌
보안 지식을 검열하면서 동시에 안전한 소프트웨어를 개발하겠다는 건 모순임
모든 AI 업체가 같은 정책을 쓰지 않는 이상, 실효성도 없음. 결국 이 접근은 포기하게 될 것 같음
- 나는 보안 전문가는 아니지만, 오픈소스 프로젝트를 빌드할 때 취약점 검증을 도와주는 AI가 필요함
  그런데 이런 제한은 보안을 중앙집중화시키는 방향이라, 진짜 보안 향상이라고 보기 어려움
- 과도한 훈련 단계의 안전장치는 일반 지능을 깎아먹는다고 느낌
  마치 면접에서 화이트보드 앞에 세워두면 IQ가 10% 줄어드는 것처럼, 모델도 위축됨
- 지금 모델들은 해킹에는 너무 똑똑하면서, 경제적 작업에는 여전히 부족한 이상한 상태임
  그래서 “선택적으로 멍청하게 만드는” 방향으로 가는 듯함. 이미 그 실험을 하고 있는 것 같음
- 단기적으로는 괜찮은 조치라고 생각함
  공격자는 한 번만 성공하면 되지만, 방어자는 매번 성공해야 함이라는 점에서 시간을 벌 수 있음
지난주 4.6의 품질 저하 때문에 결국 Codex로 옮겼음
4.6은 웹 검색도 안 하고 17K 토큰을 헛소리로 채웠음. 병렬 처리 예제도 완전히 잘못 구현함
- 나도 같은 이유로 Pro 구독을 해지했음
  토큰 사용량이 갑자기 폭증했고, 지원팀의 무관심한 대응이 결정타였음
  버그는 이해하지만, 고객을 대하는 태도는 용납하기 어려움
  Codex로 옮긴 뒤에는 적어도 일이 진행됨, 그게 전부임
- 많은 사람들이 OpenAI가 컴퓨트 과잉으로 망할 거라 했지만, 지금은 오히려 전략적 우위가 됨
  Codex는 사용 한도를 2배로 늘려 Claude 고객을 흡수 중이고, PR도 훨씬 좋음
  Claude의 문제 90%는 컴퓨트 부족 때문으로 보임
- 내 음모론이지만, 새 모델 출시 직전 일부러 성능을 낮춰서 다음 버전이 더 좋아 보이게 하는 것 같음
  AI는 항상 “진보 중”으로 보여야 하니까, 정체는 곧 하이프의 죽음임
- 나는 Codex를 써봤지만 내 용도에는 훨씬 열등했음
  빠르긴 하지만, 품질이 낮은 코드를 더 빨리 내는 건 의미 없음
  Gemini CLI는 더 느리고 품질도 낮았음
  Codex는 버그가 있어도 “완벽하다”고 아부하는 경향이 있어 위험함
- 그래도 Codex는 내 툴킷에 자리를 잡았음
  실행력이 뛰어나고, OpenAI는 마케팅 없이 결과로 말함
  마치 초창기 구글처럼 제품 품질로 승부하는 느낌임
Opus 4.7의 사이버 보안 필터가 너무 강해져서, 합법적인 연구조차 막힘
프로그램 가이드라인을 직접 웹에서 가져와도 “위험한 요청”으로 차단됨
이런 상태면 Codex로 옮길 예정임
- 이제는 신원 인증(Identity Verification) 을 요구할 수도 있음
  공식 안내처럼, 일부 기능 접근 시 인증 절차가 필요함
- 실제로 API에서 “Usage Policy 위반” 오류가 뜨고, Cyber Verification Program 신청 링크가 함께 표시됨
  이로 인해 진행 중인 연구가 전부 막힘
- 나는 세션 중간에 차단이 발생했는데, 입력은 그대로였음
  아마 모델이 자체 reasoning 중에 “공격적”으로 보이는 단계를 탐지했을 가능성이 있음
  버그 헌팅이 점점 공격적 단계로 넘어가면 필터가 작동하는 듯함
  이제는 정책 위반이 새로운 세그폴트(segfault) 가 된 세상임
- 더 심각한 건, 내 자체 코드를 짜는 중에도 “이건 악성코드가 아닙니다” 같은 문장을 스스로 출력함
  특정 단어만 포함돼도 과민 반응함
  이제는 내가 내 프로젝트가 악성인지 아닌지 AI에게 허락받는 꼴임. 구독 취소 예정임
- PDF를 프린터로 보내는 단순 작업조차 거부당함
이 스레드는 창업자에게 좋은 교훈임
조금의 솔직한 커뮤니케이션만으로도 얼마나 많은 불만을 잠재울 수 있는지 보여줌
Opus 4.5에 앱을 고정해둔 입장에서, 지금은 모델 문제인지 하니스 문제인지 구분조차 어려움
- 이런 스레드에는 늘 “Anthropic이 모델을 너프했다”는 미신이 많음
  가끔은 그냥 운이 나쁜 것일 뿐임
- 만약 부하 때문에 모델을 일부러 둔화시킨 거라면, 그걸 명확히 알려주는 게 중요함
  그러면 나는 업무 시간을 조정해서 밤에 무거운 작업을 돌릴 수 있음
- Opus 4.5는 일관성이 높았는데, 4.6은 들쭉날쭉했음
- 나는 초보 개발자라 모델별 차이를 배우는 중임
  이런 혼란 속에서는 모델 브로커나 Copilot 같은 중간 계층을 쓰는 게 현명하다고 생각함
- 이런 불안정성 때문에 사용자들이 편집증적이 되어감
  “표준 AI”처럼 항상 같은 모델을 제공하는 서비스가 필요하다고 느낌
우리 팀의 사설 벤치마크 결과, Opus 4.7은 4.6/4.5보다 전략적이고 지능적임
GPT-5.4와 거의 동급이며, 도구를 사용하는 에이전틱 세션에서는 오히려 최고 성능을 보임
벤치마크 링크
다만 컨텍스트 처리에서는 약간의 회귀가 있음. 이를 시각화하는 벤치마크를 추가 중임
- Opus 4.7의 성공률이 Sonnet 4.6보다 낮은데 평균 백분위는 더 높은 이유가 궁금함
- 4.6이나 4.5가 초기 릴리스 이후 성능 회귀를 겪었는지 묻는 질문이 나옴
최근 Anthropic에 대한 신뢰가 떨어짐
4.6의 다운그레이드 이후 바로 4.7을 내놓는 게 불안함
이제는 투명한 커뮤니케이션이 필요함
- 문제의 핵심은 컴퓨트 부족임
  OpenAI는 일찍부터 컴퓨트에 투자했고, 지금은 그게 큰 이점이 됨
- 아마도 Mythos를 훈련하느라 Opus 성능이 떨어졌을 가능성이 있음
  Mythos를 Opus 4.7로 증류(distillation) 중일지도 모름
- Bedrock 기반 Claude도 같이 둔해지는 이유가 궁금함
  아마 하니스 업데이트가 원인일 듯함
- Persona ID 인증 통합이 결정타였음. 그 이후로 떠남
- 이런 식으로 계속 버티는 게 가능한지 의문임
요즘 “Codex로 갈아탔다”는 댓글이 급증했음
하지만 실제로 써보니 Codex는 여전히 Claude 수준에 못 미침
이런 홍보성 댓글은 신뢰를 깎을 뿐임
- 하지만 실제로 많은 개발자들이 Codex를 선호함
  우리 회사도 두 모델을 모두 쓰는데, 나는 이제 거의 Codex만 씀
  속도와 결과가 더 낫다고 느낌
- 나도 짧은 파일럿을 했는데, Codex가 Claude보다 4배 이상 빠르게 문제를 해결함
  다만 응답 품질은 Claude가 더 좋음. 장단점이 뚜렷함
- 동일한 리팩터링 작업을 시켰을 때, Codex는 5분, Claude는 20분 걸림
  하지만 Codex는 “기술적으로는 맞지만 인간적으로는 이상한” 결과를 냄
  그래서 나는 Claude로 명세를 작성하고 Codex로 실행시키는 조합을 씀
- “Java가 최고”라는 비꼼으로, 이런 논쟁이 결국 프로그래밍 언어 전쟁과 다를 바 없다고 함
- OpenAI가 과도한 보조금 전략으로 시장 점유율을 늘리고 있다고 비판함
  결국 나중에 가격을 올릴 거라는 의심임
Opus 4.7의 보안 제한 정책은 치명적일 수 있음
공격을 연구하고 방어하려면 대칭적인 역량이 필요한데, 그걸 막는 건 위험함
- 이건 아마 Mythos 제품 포지셔닝을 위한 조치일 것 같음
- 이제는 합법적인 보안 연구를 하려면 모델을 속여야 하는 상황임
- 이런 정책이 계속되면 플랫폼을 떠날 예정임
- “치명적”이라는 표현은 과하지만, 비대칭성이 어디서 오는지 묻는 의견도 있음
- 결국 Anthropic이나 정부가 승인한 소프트웨어만 안전하다고 인정받는 시대가 오는 것 같음

답변달기

Claude Opus 4.7

Claude Opus 4.7 개요

사이버 보안 관련 조치

주요 성능 및 사용자 피드백

초기 테스트 주요 개선점

명령어 해석 정확도

멀티모달 지원 강화

실제 업무 성능

메모리 활용

안전성과 정렬 평가

추가 출시 기능

Effort 제어 강화

Claude Platform(API)

Claude Code

Opus 4.6에서 4.7로의 마이그레이션

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들