11P by GN⁺ | ★ favorite | 댓글 2개
  • 두 개의 오픈소스 저장소(Zod, graphql-go-tools)에서 추출한 56개 실제 코딩 작업을 대상으로 GPT-5.5, GPT-5.4, Opus 4.7 세 모델의 패치 품질을 비교한 벤치마크 결과 공개
  • GPT-5.5는 테스트 통과율, 인간 패치와의 동등성, 코드 리뷰 통과율(clean pass) 모든 지표에서 최고 성적 기록
  • Opus 4.7은 가장 작은 패치를 생성하며 풋프린트 리스크가 낮지만, 동반 작업 누락으로 불완전한 구현이 반복되는 실패 패턴 존재
  • 테스트 통과만으로는 패치 품질을 판단할 수 없으며, 리뷰어 수용 여부까지 포함한 다층 평가가 필요함
  • 동일 모델의 순위가 저장소에 따라 달라지므로, 자체 코드베이스 기반의 벤치마크 실행이 모델 선택에 핵심

벤치마크 개요 및 실행 환경

  • Zod에서 27개, graphql-go-tools에서 29개, 총 56개의 실제 코딩 작업을 대상으로 세 모델 비교
  • 각 모델은 자체 공식 에이전트 하네스에서 기본 설정으로 실행: Opus 4.7은 Claude Code, GPT-5.4와 GPT-5.5는 OpenAI Codex CLI 사용
  • 모든 모델의 reasoning level은 high으로 통일
  • 평가 프레임워크 Stet을 사용하여 테스트 통과 여부 외에도 행동 동등성, 코드 리뷰 수용성, 풋프린트 리스크, 장인정신(craft)/규율(discipline) 루브릭까지 다층 채점
  • 단일 시드로 작업당 1회 실행, 등가성 및 루브릭 판정 모델은 GPT-5.4 사용

전체 결과 요약

  • GPT-5.5가 테스트 통과 38/56, 인간 패치 동등성 40/56, clean pass 28/56으로 전 지표 1위
  • Opus 4.7은 테스트 통과 33/56, 동등성 19/56, clean pass 10/56으로 가장 낮은 품질 점수
    • 단, 평균 풋프린트 리스크 0.20으로 가장 낮아 패치 크기 면에서 우위
  • GPT-5.4는 테스트 통과 31/56, 동등성 35/56, clean pass 11/56
    • 작업당 비용 $2.39로 최저 비용이나, clean pass 격차를 상쇄하지 못함
  • GPT-5.5는 평균 작업 시간 6분 56초, 입력 토큰 201.8M, 출력 토큰 0.72M으로 효율성 면에서도 1위

저장소별 성적 분석

  • Zod (27개 작업): GPT-5.5와 Opus 모두 테스트 12개 통과로 동점이나, GPT-5.5가 clean pass 10개 vs Opus 5개로 리뷰 품질에서 우위
    • Opus는 diff 크기에서 우세하여, Zod에서는 실질적 트레이드오프 존재
  • graphql-go-tools (29개 작업): GPT-5.5가 테스트 26개, clean pass 18개로 압도적 우위
    • Opus는 테스트 21개 통과했으나 clean pass 5개에 그쳐, 작은 패치 전략이 통합 작업 누락으로 이어짐

상세 품질 지표

  • 코드 리뷰 통과: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
  • 코드 리뷰 평균(정확성 + 버그 안전성): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
    • 정확성(correctness) 단독: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
    • 도입 버그 안전성: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
  • 커스텀 채점기 평균(8개 루브릭): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
  • 장인정신 점수(clarity/coherence/robustness): GPT-5.5가 세 하위 항목 모두에서 최고
  • 규율 점수(scope discipline/diff minimality): GPT-5.5 2.36으로 근소 우위, Opus 2.20
    • Opus가 원시 풋프린트에서는 앞서지만, 작업 대비 상대적 규율에서는 GPT-5.5가 우세

테스트 통과는 최종 판단 기준이 아님

  • Zod에서 Opus와 GPT-5.5 모두 12개 테스트 통과로 동점이지만, clean pass는 GPT-5.5 10개 vs Opus 5개
  • graphql-go-tools에서도 같은 패턴이 증폭: GPT-5.5 테스트 26개/clean pass 18개, Opus 테스트 21개/clean pass 5개
  • GraphQL PR #1001 사례: 세 모델 모두 테스트 통과 및 동등성 판정을 받았으나, GPT-5.5만 코드 리뷰 통과
    • 다른 두 모델은 API 형태, raw HTTP 객체 노출, hook 경계 견고성에서 경고 수신

코드 리뷰에서 드러난 구체적 차이

  • Zod 비동기 코덱과 기본값 작업: 세 모델 모두 테스트 실패
    • Opus는 8개 파일 수정, 핵심 의미론 누락(기본값에 undefined 허용, 코덱 정의 동기 유지)
    • GPT-5.4는 11개 파일 패치로 동등성 인정받았으나 인접 API 과도 제한(prefault)
    • GPT-5.5도 테스트 실패했으나 스키마/빌드 동작을 더 깔끔하게 커버하여 정확성·버그 리스크에서 최고점
  • GraphQL Apollo 호환 검증 (PR #1169): 세 모델 모두 테스트 통과, GPT-5.5만 동등성과 리뷰 모두 통과
    • Opus는 11개 파일 수정, enum/래핑 스칼라 리프 검증 누락
    • GPT-5.4는 12개 파일 수정, 무조건적 검증 메타데이터 등 범위 과잉 확장
    • GPT-5.5는 10개 파일(비테스트 6개) 수정으로 가장 적으면서도 타겟 동작을 정확히 구현

Opus 4.7의 특성과 한계

  • 보수적이고 정밀하며 풋프린트가 낮은 패치 생성
  • 작업이 국소적이고 변경 표면이 좁을 때 강점 발휘
  • 반복되는 실패 패턴: 핵심 동작만 구현하고 동반 작업(companion work)을 완료하지 않음
    • Zod의 Node/Deno 병렬 트리 사례: Opus가 4개 파일만 수정해 테스트 통과했으나, GPT-5.5는 병렬 배포 표면까지 포함해 11개 파일 수정 → 인간 패치와 동등
  • graphql-go-tools에서는 더 심각: PR #1155(gRPC 데이터소스 반복 스칼라 필드 등 다수 엔진 표면 변경)에서 Opus는 패치 자체를 생성하지 못함, GPT-5.5만 테스트·동등성·리뷰 모두 통과
  • 핵심 구분: Opus의 작은 패치는 국소 작업에서는 규율, 통합 작업에서는 미완성 구현

GPT-5.4에서 GPT-5.5로의 변화

  • GPT-5.4는 올바른 접근 방향은 찾지만 실행에서 실패하는 패턴
    • Zod에서 동등성 18개(GPT-5.5와 동일)이지만, 테스트 통과는 9개에 그침
  • GPT-5.5는 넓은 통합 동작을 유지하면서 깨진 패치를 더 적게 생성
  • 구체적 사례 비교:
    • 스키마→TypeScript 생성기: Opus와 GPT-5.5는 재귀 방문자 구현, GPT-5.4는 저장소 안내 파일 생성으로 작업 자체를 오분류
    • 재귀 파서 수정: 두 GPT 모델 모두 방문 횟수 추적 접근, GPT-5.5는 불필요한 상태 제거로 더 간결
    • CIDR 검증: GPT-5.5는 Deno 미러까지 업데이트, GPT-5.4는 미러 미반영(저장소 위생 문제)
  • graphql-go-tools PR #1232(동일 단일 fetch 중복 제거 + 의존성 참조 재작성): GPT-5.5만 테스트·동등성·리뷰 모두 통과
  • 패턴 요약: GPT-5.5는 영리한 국소 수정을 배포 가능한 저장소 변경으로 전환하는 지루한 통합 작업을 더 많이 수행

패치 크기와 비용의 트레이드오프

  • graphql-go-tools 평균 패치 크기: GPT-5.5 약 33KB, GPT-5.4 27KB, Opus 19KB
  • 풋프린트 점수: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
  • 큰 패치는 리뷰 난이도 증가, 충돌 가능성, 민감 경로 접촉 위험 수반
    • 감사가능성(auditability) 중심 워크플로에서는 Opus가 여전히 실질적 이점
  • 단, diff minimality를 작업 대비 상대적으로 평가하면 GPT-5.5가 근소 우위
    • 핵심: 필요 표면을 놓친 5KB 패치는, 작업을 완료한 20KB 패치보다 더 최소화된 것이 아님
  • 비용 비교:
    • Zod에서는 Opus와 GPT-5.5가 유사(Opus $45.53 vs GPT-5.5 $46.69)
    • graphql-go-tools에서는 Opus가 입력 토큰 186.1M/출력 934K/에이전트 시간 8.56h, GPT-5.5는 151.4M/431K/4.16h로 GPT-5.5가 훨씬 효율적

모델별 행동 특성 요약

  • Opus 4.7 — 과소 도달(under-reach): 보수적이고 정밀하며 낮은 풋프린트, 국소 작업에 강하나 테스트가 완전히 커버하지 못하는 동반 표면에서 약함, 실패 모드는 "테스트 통과했으나 동일한 변경이 아님"
  • GPT-5.4 — 올바른 형태, 잘못된 실행: 방향성은 맞으나 불균일, 오래된 미러·불필요한 리팩터링·테스트보다 판정자에게 더 좋은 평가를 받는 패치가 빈번
  • GPT-5.5 — 더 넓고, 더 큰 풋프린트: 통합 표면에서 더 완전하며, 주변 코드 업데이트·리뷰 통과·의도된 동작의 실제 코드 전환율이 높음, 리스크는 오류 시 더 많은 파일에 걸친 오류

에이전트 행동 차이

  • graphql-go-tools에서 Opus는 작업당 평균 3.17회 명시적 계획 호출, GPT-5.5는 0회
  • Opus는 작업당 10.2회 패치 호출, GPT-5.5는 9.9회로 유사
  • GPT-5.5는 셸 호출 약 2배, 검색 호출도 더 많이 실행, Opus는 계획과 패치 재작성에 더 많은 예산 소비
  • 이 저장소에서는 더 넓은 저장소 탐색이 좁은 패치에 대한 숙고보다 더 효과적이었음

왜 이 결과가 중요한가

  • 핵심 질문은 "어떤 모델이 최고인가"가 아니라, "이 저장소에서, 이 하네스에서, 실제 배포하는 작업 유형에서 어떤 모델의 패치를 신뢰할 수 있는가"
  • Zod에서는 GPT-5.5 vs Opus가 트레이드오프 관계, graphql-go-tools에서는 GPT-5.5가 단순 우위
  • 공개 벤치마크는 모델 행동을 대규모 집계된 단일 숫자로 평탄화하지만, 실제 코드에서는 특정 코드베이스와 기준에 따른 워크플로 결정으로 전환

주의사항

  • 56개 작업은 여전히 소규모 샘플, 한 작업 차이가 저장소 수준 비율을 수 포인트 변동시킴
  • 모든 모델이 작업당 1회 실행, 일부 근접 결과는 재실행 시 뒤집힐 가능성
  • 등가성·루브릭 판정 모델이 GPT-5.4이므로 계열 편향 가능성 존재
    • 단, GPT-5.5가 GPT-5.4를 결정적으로 앞서고, Opus의 풋프린트 우위는 유지되며, Opus의 동등성 실패 다수가 구체적 파일 누락이므로 전체 결과를 설명하지는 못함
  • 결과는 하네스 조건부: Claude Code와 Codex CLI는 시스템 프롬프트, 계획 루프, 도구 표면이 상이
    • Opus를 Codex API에서, GPT-5.5를 Claude Code에서 실행하면 결과 변동 가능
    • 본 수치는 실제 엔지니어가 사용하는 하네스 내 모델 동작을 반영

핵심 결론

  • GPT-5.5는 이 두 저장소에서 최적 기본 배포 모델
  • Opus 4.7은 여전히 낮은 풋프린트 모델로, 좁은 diff가 가장 중요할 때 선호 가능
  • GPT-5.4는 작업당 비용 최저이나, clean pass 격차를 상쇄하기에 불충분
  • 테스트만으로는 가장 중요한 결과가 감춰짐
  • 동일 모델 순위가 저장소별로 변동하며, 이것이 자체 저장소 벤치마크의 핵심 존재 이유
GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

클로드 요즘 너무 손이많이가요 명확한지시를 예전보다 훨씬못해요 소넷3.7때보다도 못할때가많아요

담합하는건가 싶을 때도 있네요.