# GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교

> Clean Markdown view of GeekNews topic #29140. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29140](https://news.hada.io/topic?id=29140)
- GeekNews Markdown: [https://news.hada.io/topic/29140.md](https://news.hada.io/topic/29140.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-04T09:59:02+09:00
- Updated: 2026-05-04T09:59:02+09:00
- Original source: [reddit.com](https://www.reddit.com/r/codex/comments/1t0xt5m/gpt55_vs_gpt54_vs_opus_47_on_56_real_coding_tasks/)
- Points: 1
- Comments: 1

## Topic Body

- 두 개의 오픈소스 저장소(Zod, graphql-go-tools)에서 추출한 **56개 실제 코딩 작업**을 대상으로 GPT-5.5, GPT-5.4, Opus 4.7 세 모델의 패치 품질을 비교한 벤치마크 결과 공개  
- GPT-5.5는 테스트 통과율, 인간 패치와의 동등성, **코드 리뷰 통과율(clean pass)** 모든 지표에서 최고 성적 기록  
- Opus 4.7은 가장 작은 패치를 생성하며 **풋프린트 리스크**가 낮지만, 동반 작업 누락으로 불완전한 구현이 반복되는 실패 패턴 존재  
- 테스트 통과만으로는 패치 품질을 판단할 수 없으며, **리뷰어 수용 여부**까지 포함한 다층 평가가 필요함  
- 동일 모델의 순위가 저장소에 따라 달라지므로, **자체 코드베이스 기반의 벤치마크 실행**이 모델 선택에 핵심  
  
---  
  
### 벤치마크 개요 및 실행 환경  
- Zod에서 27개, graphql-go-tools에서 29개, 총 **56개의 실제 코딩 작업**을 대상으로 세 모델 비교  
- 각 모델은 자체 공식 에이전트 하네스에서 기본 설정으로 실행: Opus 4.7은 **Claude Code**, GPT-5.4와 GPT-5.5는 **OpenAI Codex CLI** 사용  
- 모든 모델의 reasoning level은 **high**으로 통일  
- 평가 프레임워크 **Stet**을 사용하여 테스트 통과 여부 외에도 행동 동등성, 코드 리뷰 수용성, 풋프린트 리스크, 장인정신(craft)/규율(discipline) 루브릭까지 다층 채점  
- 단일 시드로 작업당 1회 실행, 등가성 및 루브릭 판정 모델은 GPT-5.4 사용  
  
### 전체 결과 요약  
- GPT-5.5가 **테스트 통과 38/56**, 인간 패치 동등성 40/56, **clean pass 28/56**으로 전 지표 1위  
- Opus 4.7은 테스트 통과 33/56, 동등성 19/56, clean pass 10/56으로 가장 낮은 품질 점수  
  - 단, **평균 풋프린트 리스크 0.20**으로 가장 낮아 패치 크기 면에서 우위  
- GPT-5.4는 테스트 통과 31/56, 동등성 35/56, clean pass 11/56  
  - **작업당 비용 $2.39**로 최저 비용이나, clean pass 격차를 상쇄하지 못함  
- GPT-5.5는 평균 작업 시간 **6분 56초**, 입력 토큰 201.8M, 출력 토큰 0.72M으로 **효율성 면에서도 1위**  
  
### 저장소별 성적 분석  
- **Zod (27개 작업)**: GPT-5.5와 Opus 모두 테스트 12개 통과로 동점이나, GPT-5.5가 clean pass 10개 vs Opus 5개로 리뷰 품질에서 우위  
  - Opus는 diff 크기에서 우세하여, Zod에서는 **실질적 트레이드오프** 존재  
- **graphql-go-tools (29개 작업)**: GPT-5.5가 테스트 26개, clean pass **18개**로 압도적 우위  
  - Opus는 테스트 21개 통과했으나 clean pass 5개에 그쳐, 작은 패치 전략이 **통합 작업 누락**으로 이어짐  
  
### 상세 품질 지표  
- 코드 리뷰 통과: GPT-5.5 **33/56**, GPT-5.4 16/56, Opus 11/56  
- 코드 리뷰 평균(정확성 + 버그 안전성): GPT-5.5 **3.08**, GPT-5.4 2.59, Opus 2.33  
  - 정확성(correctness) 단독: GPT-5.5 **3.16** vs GPT-5.4 2.60 vs Opus 2.11  
  - 도입 버그 안전성: GPT-5.5 **3.04** vs GPT-5.4 2.56 vs Opus 2.55  
- 커스텀 채점기 평균(8개 루브릭): GPT-5.5 **2.62**, GPT-5.4 2.40, Opus 2.33  
- 장인정신 점수(clarity/coherence/robustness): GPT-5.5가 세 하위 항목 모두에서 최고  
- 규율 점수(scope discipline/diff minimality): GPT-5.5 **2.36**으로 근소 우위, Opus 2.20  
  - Opus가 원시 풋프린트에서는 앞서지만, **작업 대비 상대적 규율**에서는 GPT-5.5가 우세  
  
### 테스트 통과는 최종 판단 기준이 아님  
- Zod에서 Opus와 GPT-5.5 모두 12개 테스트 통과로 동점이지만, clean pass는 GPT-5.5 10개 vs Opus 5개  
- graphql-go-tools에서도 같은 패턴이 증폭: GPT-5.5 테스트 26개/clean pass 18개, Opus 테스트 21개/clean pass 5개  
- GraphQL PR #1001 사례: 세 모델 모두 테스트 통과 및 동등성 판정을 받았으나, **GPT-5.5만 코드 리뷰 통과**  
  - 다른 두 모델은 API 형태, raw HTTP 객체 노출, hook 경계 견고성에서 경고 수신  
  
### 코드 리뷰에서 드러난 구체적 차이  
- **Zod 비동기 코덱과 기본값 작업**: 세 모델 모두 테스트 실패  
  - Opus는 8개 파일 수정, 핵심 의미론 누락(기본값에 `undefined` 허용, 코덱 정의 동기 유지)  
  - GPT-5.4는 11개 파일 패치로 동등성 인정받았으나 인접 API 과도 제한(`prefault`)  
  - GPT-5.5도 테스트 실패했으나 **스키마/빌드 동작을 더 깔끔하게 커버**하여 정확성·버그 리스크에서 최고점  
- **GraphQL Apollo 호환 검증 (PR #1169)**: 세 모델 모두 테스트 통과, **GPT-5.5만 동등성과 리뷰 모두 통과**  
  - Opus는 11개 파일 수정, enum/래핑 스칼라 리프 검증 누락  
  - GPT-5.4는 12개 파일 수정, 무조건적 검증 메타데이터 등 범위 과잉 확장  
  - GPT-5.5는 **10개 파일(비테스트 6개)** 수정으로 가장 적으면서도 타겟 동작을 정확히 구현  
  
### Opus 4.7의 특성과 한계  
- 보수적이고 정밀하며 **풋프린트가 낮은 패치** 생성  
- 작업이 국소적이고 변경 표면이 좁을 때 강점 발휘  
- 반복되는 실패 패턴: 핵심 동작만 구현하고 **동반 작업(companion work)을 완료하지 않음**  
  - Zod의 Node/Deno 병렬 트리 사례: Opus가 4개 파일만 수정해 테스트 통과했으나, GPT-5.5는 병렬 배포 표면까지 포함해 11개 파일 수정 → 인간 패치와 동등  
- graphql-go-tools에서는 더 심각: PR #1155(gRPC 데이터소스 반복 스칼라 필드 등 다수 엔진 표면 변경)에서 **Opus는 패치 자체를 생성하지 못함**, GPT-5.5만 테스트·동등성·리뷰 모두 통과  
- 핵심 구분: Opus의 작은 패치는 국소 작업에서는 **규율**, 통합 작업에서는 **미완성 구현**  
  
### GPT-5.4에서 GPT-5.5로의 변화  
- GPT-5.4는 올바른 접근 방향은 찾지만 **실행에서 실패**하는 패턴  
  - Zod에서 동등성 18개(GPT-5.5와 동일)이지만, 테스트 통과는 9개에 그침  
- GPT-5.5는 넓은 통합 동작을 유지하면서 **깨진 패치를 더 적게 생성**  
- 구체적 사례 비교:  
  - 스키마→TypeScript 생성기: Opus와 GPT-5.5는 재귀 방문자 구현, **GPT-5.4는 저장소 안내 파일 생성**으로 작업 자체를 오분류  
  - 재귀 파서 수정: 두 GPT 모델 모두 방문 횟수 추적 접근, GPT-5.5는 **불필요한 상태 제거**로 더 간결  
  - CIDR 검증: GPT-5.5는 **Deno 미러까지 업데이트**, GPT-5.4는 미러 미반영(저장소 위생 문제)  
- graphql-go-tools PR #1232(동일 단일 fetch 중복 제거 + 의존성 참조 재작성): **GPT-5.5만 테스트·동등성·리뷰 모두 통과**  
- 패턴 요약: GPT-5.5는 영리한 국소 수정을 **배포 가능한 저장소 변경으로 전환하는 지루한 통합 작업**을 더 많이 수행  
  
### 패치 크기와 비용의 트레이드오프  
- graphql-go-tools 평균 패치 크기: GPT-5.5 약 **33KB**, GPT-5.4 27KB, Opus 19KB  
- 풋프린트 점수: Opus **0.19**, GPT-5.4 0.32, GPT-5.5 0.34  
- 큰 패치는 리뷰 난이도 증가, 충돌 가능성, 민감 경로 접촉 위험 수반  
  - 감사가능성(auditability) 중심 워크플로에서는 Opus가 여전히 **실질적 이점**  
- 단, diff minimality를 **작업 대비 상대적**으로 평가하면 GPT-5.5가 근소 우위  
  - 핵심: 필요 표면을 놓친 5KB 패치는, 작업을 완료한 20KB 패치보다 **더 최소화된 것이 아님**  
- 비용 비교:  
  - Zod에서는 Opus와 GPT-5.5가 유사(Opus $45.53 vs GPT-5.5 $46.69)  
  - graphql-go-tools에서는 Opus가 입력 토큰 186.1M/출력 934K/에이전트 시간 8.56h, GPT-5.5는 151.4M/431K/**4.16h**로 GPT-5.5가 훨씬 효율적  
  
### 모델별 행동 특성 요약  
- **Opus 4.7 — 과소 도달(under-reach)**: 보수적이고 정밀하며 낮은 풋프린트, 국소 작업에 강하나 테스트가 완전히 커버하지 못하는 동반 표면에서 약함, 실패 모드는 "테스트 통과했으나 동일한 변경이 아님"  
- **GPT-5.4 — 올바른 형태, 잘못된 실행**: 방향성은 맞으나 불균일, 오래된 미러·불필요한 리팩터링·테스트보다 판정자에게 더 좋은 평가를 받는 패치가 빈번  
- **GPT-5.5 — 더 넓고, 더 큰 풋프린트**: 통합 표면에서 더 완전하며, 주변 코드 업데이트·리뷰 통과·의도된 동작의 실제 코드 전환율이 높음, 리스크는 오류 시 **더 많은 파일에 걸친 오류**  
  
### 에이전트 행동 차이  
- graphql-go-tools에서 Opus는 작업당 평균 **3.17회 명시적 계획 호출**, GPT-5.5는 **0회**  
- Opus는 작업당 10.2회 패치 호출, GPT-5.5는 9.9회로 유사  
- GPT-5.5는 **셸 호출 약 2배, 검색 호출도 더 많이** 실행, Opus는 계획과 패치 재작성에 더 많은 예산 소비  
- 이 저장소에서는 더 넓은 저장소 탐색이 **좁은 패치에 대한 숙고보다 더 효과적**이었음  
  
### 왜 이 결과가 중요한가  
- 핵심 질문은 "어떤 모델이 최고인가"가 아니라, "**이 저장소에서, 이 하네스에서, 실제 배포하는 작업 유형에서 어떤 모델의 패치를 신뢰할 수 있는가**"  
- Zod에서는 GPT-5.5 vs Opus가 트레이드오프 관계, graphql-go-tools에서는 GPT-5.5가 **단순 우위**  
- 공개 벤치마크는 모델 행동을 대규모 집계된 단일 숫자로 평탄화하지만, 실제 코드에서는 **특정 코드베이스와 기준에 따른 워크플로 결정**으로 전환  
  
### 주의사항  
- 56개 작업은 여전히 소규모 샘플, 한 작업 차이가 저장소 수준 비율을 수 포인트 변동시킴  
- 모든 모델이 작업당 1회 실행, 일부 근접 결과는 재실행 시 뒤집힐 가능성  
- 등가성·루브릭 판정 모델이 **GPT-5.4**이므로 계열 편향 가능성 존재  
  - 단, GPT-5.5가 GPT-5.4를 결정적으로 앞서고, Opus의 풋프린트 우위는 유지되며, Opus의 동등성 실패 다수가 **구체적 파일 누락**이므로 전체 결과를 설명하지는 못함  
- 결과는 **하네스 조건부**: Claude Code와 Codex CLI는 시스템 프롬프트, 계획 루프, 도구 표면이 상이  
  - Opus를 Codex API에서, GPT-5.5를 Claude Code에서 실행하면 결과 변동 가능  
  - 본 수치는 **실제 엔지니어가 사용하는 하네스 내 모델 동작**을 반영  
  
### 핵심 결론  
- GPT-5.5는 이 두 저장소에서 **최적 기본 배포 모델**  
- Opus 4.7은 여전히 **낮은 풋프린트 모델**로, 좁은 diff가 가장 중요할 때 선호 가능  
- GPT-5.4는 작업당 비용 최저이나, clean pass 격차를 상쇄하기에 불충분  
- 테스트만으로는 **가장 중요한 결과가 감춰짐**  
- 동일 모델 순위가 저장소별로 변동하며, 이것이 **자체 저장소 벤치마크의 핵심 존재 이유**

## Comments


### Comment 56795

- Author: shakespeares
- Created: 2026-05-04T11:38:54+09:00
- Points: 1

담합하는건가 싶을 때도 있네요.