- 두 개의 오픈소스 저장소(Zod, graphql-go-tools)에서 추출한 56개 실제 코딩 작업을 대상으로 GPT-5.5, GPT-5.4, Opus 4.7 세 모델의 패치 품질을 비교한 벤치마크 결과 공개
- GPT-5.5는 테스트 통과율, 인간 패치와의 동등성, 코드 리뷰 통과율(clean pass) 모든 지표에서 최고 성적 기록
- Opus 4.7은 가장 작은 패치를 생성하며 풋프린트 리스크가 낮지만, 동반 작업 누락으로 불완전한 구현이 반복되는 실패 패턴 존재
- 테스트 통과만으로는 패치 품질을 판단할 수 없으며, 리뷰어 수용 여부까지 포함한 다층 평가가 필요함
- 동일 모델의 순위가 저장소에 따라 달라지므로, 자체 코드베이스 기반의 벤치마크 실행이 모델 선택에 핵심
벤치마크 개요 및 실행 환경
- Zod에서 27개, graphql-go-tools에서 29개, 총 56개의 실제 코딩 작업을 대상으로 세 모델 비교
- 각 모델은 자체 공식 에이전트 하네스에서 기본 설정으로 실행: Opus 4.7은 Claude Code, GPT-5.4와 GPT-5.5는 OpenAI Codex CLI 사용
- 모든 모델의 reasoning level은 high으로 통일
- 평가 프레임워크 Stet을 사용하여 테스트 통과 여부 외에도 행동 동등성, 코드 리뷰 수용성, 풋프린트 리스크, 장인정신(craft)/규율(discipline) 루브릭까지 다층 채점
- 단일 시드로 작업당 1회 실행, 등가성 및 루브릭 판정 모델은 GPT-5.4 사용
전체 결과 요약
- GPT-5.5가 테스트 통과 38/56, 인간 패치 동등성 40/56, clean pass 28/56으로 전 지표 1위
- Opus 4.7은 테스트 통과 33/56, 동등성 19/56, clean pass 10/56으로 가장 낮은 품질 점수
- 단, 평균 풋프린트 리스크 0.20으로 가장 낮아 패치 크기 면에서 우위
- GPT-5.4는 테스트 통과 31/56, 동등성 35/56, clean pass 11/56
- 작업당 비용 $2.39로 최저 비용이나, clean pass 격차를 상쇄하지 못함
- GPT-5.5는 평균 작업 시간 6분 56초, 입력 토큰 201.8M, 출력 토큰 0.72M으로 효율성 면에서도 1위
저장소별 성적 분석
- Zod (27개 작업): GPT-5.5와 Opus 모두 테스트 12개 통과로 동점이나, GPT-5.5가 clean pass 10개 vs Opus 5개로 리뷰 품질에서 우위
- Opus는 diff 크기에서 우세하여, Zod에서는 실질적 트레이드오프 존재
- graphql-go-tools (29개 작업): GPT-5.5가 테스트 26개, clean pass 18개로 압도적 우위
- Opus는 테스트 21개 통과했으나 clean pass 5개에 그쳐, 작은 패치 전략이 통합 작업 누락으로 이어짐
상세 품질 지표
- 코드 리뷰 통과: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- 코드 리뷰 평균(정확성 + 버그 안전성): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- 정확성(correctness) 단독: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- 도입 버그 안전성: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- 커스텀 채점기 평균(8개 루브릭): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- 장인정신 점수(clarity/coherence/robustness): GPT-5.5가 세 하위 항목 모두에서 최고
- 규율 점수(scope discipline/diff minimality): GPT-5.5 2.36으로 근소 우위, Opus 2.20
- Opus가 원시 풋프린트에서는 앞서지만, 작업 대비 상대적 규율에서는 GPT-5.5가 우세
테스트 통과는 최종 판단 기준이 아님
- Zod에서 Opus와 GPT-5.5 모두 12개 테스트 통과로 동점이지만, clean pass는 GPT-5.5 10개 vs Opus 5개
- graphql-go-tools에서도 같은 패턴이 증폭: GPT-5.5 테스트 26개/clean pass 18개, Opus 테스트 21개/clean pass 5개
- GraphQL PR #1001 사례: 세 모델 모두 테스트 통과 및 동등성 판정을 받았으나, GPT-5.5만 코드 리뷰 통과
- 다른 두 모델은 API 형태, raw HTTP 객체 노출, hook 경계 견고성에서 경고 수신
코드 리뷰에서 드러난 구체적 차이
- Zod 비동기 코덱과 기본값 작업: 세 모델 모두 테스트 실패
- Opus는 8개 파일 수정, 핵심 의미론 누락(기본값에
undefined 허용, 코덱 정의 동기 유지)
- GPT-5.4는 11개 파일 패치로 동등성 인정받았으나 인접 API 과도 제한(
prefault)
- GPT-5.5도 테스트 실패했으나 스키마/빌드 동작을 더 깔끔하게 커버하여 정확성·버그 리스크에서 최고점
- GraphQL Apollo 호환 검증 (PR #1169): 세 모델 모두 테스트 통과, GPT-5.5만 동등성과 리뷰 모두 통과
- Opus는 11개 파일 수정, enum/래핑 스칼라 리프 검증 누락
- GPT-5.4는 12개 파일 수정, 무조건적 검증 메타데이터 등 범위 과잉 확장
- GPT-5.5는 10개 파일(비테스트 6개) 수정으로 가장 적으면서도 타겟 동작을 정확히 구현
Opus 4.7의 특성과 한계
- 보수적이고 정밀하며 풋프린트가 낮은 패치 생성
- 작업이 국소적이고 변경 표면이 좁을 때 강점 발휘
- 반복되는 실패 패턴: 핵심 동작만 구현하고 동반 작업(companion work)을 완료하지 않음
- Zod의 Node/Deno 병렬 트리 사례: Opus가 4개 파일만 수정해 테스트 통과했으나, GPT-5.5는 병렬 배포 표면까지 포함해 11개 파일 수정 → 인간 패치와 동등
- graphql-go-tools에서는 더 심각: PR #1155(gRPC 데이터소스 반복 스칼라 필드 등 다수 엔진 표면 변경)에서 Opus는 패치 자체를 생성하지 못함, GPT-5.5만 테스트·동등성·리뷰 모두 통과
- 핵심 구분: Opus의 작은 패치는 국소 작업에서는 규율, 통합 작업에서는 미완성 구현
GPT-5.4에서 GPT-5.5로의 변화
- GPT-5.4는 올바른 접근 방향은 찾지만 실행에서 실패하는 패턴
- Zod에서 동등성 18개(GPT-5.5와 동일)이지만, 테스트 통과는 9개에 그침
- GPT-5.5는 넓은 통합 동작을 유지하면서 깨진 패치를 더 적게 생성
- 구체적 사례 비교:
- 스키마→TypeScript 생성기: Opus와 GPT-5.5는 재귀 방문자 구현, GPT-5.4는 저장소 안내 파일 생성으로 작업 자체를 오분류
- 재귀 파서 수정: 두 GPT 모델 모두 방문 횟수 추적 접근, GPT-5.5는 불필요한 상태 제거로 더 간결
- CIDR 검증: GPT-5.5는 Deno 미러까지 업데이트, GPT-5.4는 미러 미반영(저장소 위생 문제)
- graphql-go-tools PR #1232(동일 단일 fetch 중복 제거 + 의존성 참조 재작성): GPT-5.5만 테스트·동등성·리뷰 모두 통과
- 패턴 요약: GPT-5.5는 영리한 국소 수정을 배포 가능한 저장소 변경으로 전환하는 지루한 통합 작업을 더 많이 수행
패치 크기와 비용의 트레이드오프
- graphql-go-tools 평균 패치 크기: GPT-5.5 약 33KB, GPT-5.4 27KB, Opus 19KB
- 풋프린트 점수: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- 큰 패치는 리뷰 난이도 증가, 충돌 가능성, 민감 경로 접촉 위험 수반
- 감사가능성(auditability) 중심 워크플로에서는 Opus가 여전히 실질적 이점
- 단, diff minimality를 작업 대비 상대적으로 평가하면 GPT-5.5가 근소 우위
- 핵심: 필요 표면을 놓친 5KB 패치는, 작업을 완료한 20KB 패치보다 더 최소화된 것이 아님
- 비용 비교:
- Zod에서는 Opus와 GPT-5.5가 유사(Opus $45.53 vs GPT-5.5 $46.69)
- graphql-go-tools에서는 Opus가 입력 토큰 186.1M/출력 934K/에이전트 시간 8.56h, GPT-5.5는 151.4M/431K/4.16h로 GPT-5.5가 훨씬 효율적
모델별 행동 특성 요약
- Opus 4.7 — 과소 도달(under-reach): 보수적이고 정밀하며 낮은 풋프린트, 국소 작업에 강하나 테스트가 완전히 커버하지 못하는 동반 표면에서 약함, 실패 모드는 "테스트 통과했으나 동일한 변경이 아님"
- GPT-5.4 — 올바른 형태, 잘못된 실행: 방향성은 맞으나 불균일, 오래된 미러·불필요한 리팩터링·테스트보다 판정자에게 더 좋은 평가를 받는 패치가 빈번
- GPT-5.5 — 더 넓고, 더 큰 풋프린트: 통합 표면에서 더 완전하며, 주변 코드 업데이트·리뷰 통과·의도된 동작의 실제 코드 전환율이 높음, 리스크는 오류 시 더 많은 파일에 걸친 오류
에이전트 행동 차이
- graphql-go-tools에서 Opus는 작업당 평균 3.17회 명시적 계획 호출, GPT-5.5는 0회
- Opus는 작업당 10.2회 패치 호출, GPT-5.5는 9.9회로 유사
- GPT-5.5는 셸 호출 약 2배, 검색 호출도 더 많이 실행, Opus는 계획과 패치 재작성에 더 많은 예산 소비
- 이 저장소에서는 더 넓은 저장소 탐색이 좁은 패치에 대한 숙고보다 더 효과적이었음
왜 이 결과가 중요한가
- 핵심 질문은 "어떤 모델이 최고인가"가 아니라, "이 저장소에서, 이 하네스에서, 실제 배포하는 작업 유형에서 어떤 모델의 패치를 신뢰할 수 있는가"
- Zod에서는 GPT-5.5 vs Opus가 트레이드오프 관계, graphql-go-tools에서는 GPT-5.5가 단순 우위
- 공개 벤치마크는 모델 행동을 대규모 집계된 단일 숫자로 평탄화하지만, 실제 코드에서는 특정 코드베이스와 기준에 따른 워크플로 결정으로 전환
주의사항
- 56개 작업은 여전히 소규모 샘플, 한 작업 차이가 저장소 수준 비율을 수 포인트 변동시킴
- 모든 모델이 작업당 1회 실행, 일부 근접 결과는 재실행 시 뒤집힐 가능성
- 등가성·루브릭 판정 모델이 GPT-5.4이므로 계열 편향 가능성 존재
- 단, GPT-5.5가 GPT-5.4를 결정적으로 앞서고, Opus의 풋프린트 우위는 유지되며, Opus의 동등성 실패 다수가 구체적 파일 누락이므로 전체 결과를 설명하지는 못함
- 결과는 하네스 조건부: Claude Code와 Codex CLI는 시스템 프롬프트, 계획 루프, 도구 표면이 상이
- Opus를 Codex API에서, GPT-5.5를 Claude Code에서 실행하면 결과 변동 가능
- 본 수치는 실제 엔지니어가 사용하는 하네스 내 모델 동작을 반영
핵심 결론
- GPT-5.5는 이 두 저장소에서 최적 기본 배포 모델
- Opus 4.7은 여전히 낮은 풋프린트 모델로, 좁은 diff가 가장 중요할 때 선호 가능
- GPT-5.4는 작업당 비용 최저이나, clean pass 격차를 상쇄하기에 불충분
- 테스트만으로는 가장 중요한 결과가 감춰짐
- 동일 모델 순위가 저장소별로 변동하며, 이것이 자체 저장소 벤치마크의 핵심 존재 이유