Claude Code(~100시간) vs. Codex(~20시간) 비교
(reddit.com)- 14년 경력의 시니어 엔지니어가 8만 줄 규모의 Python/TypeScript 프로젝트에서 Claude Code(Opus 4.6)와 Codex(GPT-5.4)를 실전 비교한 경험담
- Claude Code는 빠르고 인터랙티브하지만 지시 무시, 작업 미완료, 기존 파일에 함수를 무분별하게 추가하는 등 적극적인 관리가 필요
- Codex는 3~4배 느리지만 더 신중하고 체계적으로 코드를 작성하며, 자발적으로 리팩토링하고 지시 파일(AGENTS.md)을 철저히 준수
- Claude Code는 빠른 프로토타이핑에, Codex는 엔터프라이즈급 소프트웨어 개발에 적합하다는 평가
- 결론적으로 두 도구 모두 소프트웨어 엔지니어링 역량이 없으면 좋은 결과를 내기 어렵다는 공통점이 있음
작성자 배경 및 개발 환경
- MAG7(미국 빅테크 7사) 및 또 다른 주요 기술 기업에서 14년간 근무한 Principal/Staff Eng Manager급 엔지니어
- 플랫폼 레벨 개발 경험이 주력이며 분산 시스템 경험이 풍부
- 프로젝트는 VSCode 확장으로 구성된 Python/TypeScript 기반 8만 줄 코드, 테스트 약 2,800개
- 사용자가 PDF/CSV/XML 파일을 업로드하면 파싱 후 Postgres 기반 구조화된 데이터 모델로 정규화하는 데이터 분석 애플리케이션
- 백엔드 실시간 데이터 제공자와 WebSocket으로 연결되어 현재 데이터를 데이터 모델에 스트리밍
- 서버 측에서 데이터 스트림 기반 분석을 업데이트하고 SSE(Server-Sent Events) 로 웹 UI에 전달
- 바이브 코딩이 아닌 체계적 아키텍처 기반 개발
공통 에이전트 워크플로우
- 먼저 Plan 모드에서 충분히 범위가 정해진 프롬프트로 시작하고, plan-review 스킬로 8개의 서브에이전트(아키텍처, 코딩 표준, UI 디자인, 성능 등)를 실행
- 각 서브에이전트는 이전 리서치 세션에서 생성한 참조 문서(예:
postgres_performance.md,python_threading.md,software_architecture.md)와 함께 구체적인 프롬프트를 보유- 아키텍처 리뷰 전문가는 SOLID, DRY, KISS, YAGNI 등의 개념별 참조와 함께 리뷰하도록 프롬프트 구성
- 코드 작성 후 각 계획 단계별로 개별 커밋, code-review 스킬(plan 서브에이전트 재활용)로 각 커밋을 리뷰하고 수동으로 피드백 확인 및 조정
- CLAUDE.md는 약 100줄로 구성, TDD, Git 워크플로우, 주요 DevEx 컨벤션, Docker 명령어 등 프로젝트 도구 사용법 포함
Claude Code 경험 (Opus 4.6)
- 마감에 쫓기는 엔지니어 같은 느낌으로, 핵심 아키텍처를 재검토하기보다 핵, 패치, 헬퍼 함수 남발로 기능 구현에만 집중하는 경향
- 인터랙티브하지만 그만큼 더 많은 관리(babysitting)가 필요
- 빠르게 동작하는 코드를 만들지만, 행동 전에 충분히 생각하지 않음
- 컨텍스트를 적극적으로 수동 관리해도(1M 컨텍스트는 초보자 함정이며 1/4 이하로 유지해야 한다고 판단) 거의 매 세션마다 CLAUDE.md를 노골적으로 무시하는 경우 발생
- 작업을 반쯤 완료한 채 남겨두는 경우가 종종 있음
- 예: 8개 테스트 스위트의 비동기 패턴 마이그레이션 시 대부분은 처리하지만 일부를 구 패턴으로 방치
- 새 기능을 위한 새 파일 생성을 거의 하지 않고, 기존 파일에 함수를 계속 추가하는 경향
- 강한 OO 원칙과 파일당 600줄 이하 유지 선호와 충돌
- 테스트가 깨지면 프롬프트 없이 임의로 수정하려는 경향이 있어, "테스트가 깨지면 멈추고 나에게 물어라"는 지시를 많이 추가해야 함
- 작성하는 테스트의 95%는 유용하나 5%는 잘못된 동작을 고정시키며, 시간이 지나면 이것이 누적
Codex 경험 (GPT-5.4)
- 5~6년차 주니어 시니어 엔지니어 같은 느낌으로, 별도 지시 없이도 스스로 멈추고 코드를 더 깔끔하게 리워크
- Claude보다 3~4배 느림 (동일 작업 기준)
- 더 신중하고 의도적으로 작업하며, Claude처럼 'god class'를 확장하지 않고 자동으로 코드를 더 타이트하게 팩토링
- 작업 도중 자신의 가정을 재검토하고 중간에 리워크하여 정리
- 예상하지 못한 부가가치 있는 작업을 자발적으로 수행하는 경우도 발생
- AGENTS.md를 무시하는 것을 한 번도 목격하지 못함, 세션 도중 지시를 오버라이드하려 해도 허용하지 않음
- 충분한 역량을 입증했기에 작업을 실행시켜 놓고 완료 후 리뷰하는 방식으로 전환 가능, 실시간 모니터링 불필요
종합 비교
- Codex Pro x5의 사용량 상한이 Claude x20과 비슷한 수준
- Codex는 눈에 띄게 느리고 덜 인터랙티브하지만 더 신중, Claude는 빠르고 인터랙티브하지만 관리 필요(babysitting)
- Claude로 한 세션에서 더 많은 작업량을 처리할 수 있지만, Codex의 작업 품질이 더 높음
- Claude는 극도로 빠른 프로토타이핑과 빌드가 가능하나 며칠마다 리팩토링을 가이드해야 함
- Codex도 앱이 성장하면 리팩토링이 필요하지만, "어떤 문제를 정리해야 하나" 수준이 아닌 "앱이 커져서 리팩토링할 시점" 수준
- 낮은~중간 복잡도 프로젝트의 바이브 코딩에는 Claude가 더 빠르게 완성 가능
- 엔터프라이즈 소프트웨어 구축에는 Codex가 더 적합
- 두 도구 모두 유용하지만, Claude는 Codex보다 숙련되고 집중력 있는 운전자가 더 필요
- 소프트웨어 엔지니어링을 전혀 모르면 두 도구 모두 좋지 않은 결과물 산출
📋 Reddit 댓글 주요 논점 정리
두 도구 병행 사용 전략 (가장 많이 언급)
- Claude로 초안/빠른 작업 → Codex로 코드 리뷰하는 교차 검증 워크플로우가 가장 인기 있는 패턴
- "Claude가 작성한 코드를 Codex에 리뷰시키고, 그 반대도 해보라" — 두 모델이 같은 방식으로 환각(hallucination)하는 경우는 극히 드묾
- Claude 토큰 소진 후 Codex로 배턴패스(baton-pass) 전략을 쓰는 사용자도 있음
save-state.md와next-task.md에 상태를 저장해 Codex가 이어받는 구조, 매 전환마다 핸드오프 품질이 개선됨
- Codex CLI를 MCP 서버로 감싸서 Claude Code 안에서 Codex 협업을 자동화하는 사례도 존재
- Claude 작업 후 Codex가 제안을 반환하면 Claude가 이를 구현하는 방식으로 코드 품질이 극적으로 향상
- 하루 종일 Codex로 작업하다가 마무리 단계에서 Claude로 폴리싱한 뒤 다시 Codex로 돌아가는 흐름도 유효
Codex의 장점에 대한 공감
- Claude Code를 20x($200) 플랜에서 5x($100)로 다운그레이드하고 Codex $100 플랜을 병행하는 사용자 등장
- GPT-5.4와 Opus 4.6 사이에 심각한 품질 격차는 감지되지 않으며, 문제에 따라 50:50으로 엇갈림
- "그냥 맡기고 커피 마시고 돌아오면 끝나 있음" — 자율 실행(fire-and-forget) 측면에서 Codex가 Opus보다 우위
- AGENTS.md 지시를 Codex가 거부할 정도로 철저히 준수, 명시적으로 오버라이드를 지시해야 무시함
- 순수 Codex로 플랜 + 구현 + 별도 Codex 인스턴스로 리뷰하는 체계로 전환한 뒤 결과가 더 좋아졌다는 보고
Codex의 단점
- 로봇 같은 커뮤니케이션 스타일이 가장 큰 불만
- Python dict 값
[0.1, 0.3, 0.5, 0.7, 0.9]를 한 줄에 쓰지 않고 각 값을 한 줄씩 나열하는 식으로 출력 - RL 학습이 "불릿 포인트를 많이 쓸수록 좋다"는 방향으로 보상한 것 같다는 추측
- 커뮤니케이션 설정을 조정해도 극단(과소 vs 과다) 사이를 오가며 적정 수준을 찾기 어려움
- Python dict 값
- 사용자에게 끊임없이 반박하려는 경향 — 경력 10년 이상 개발자가 명확히 지시해도 계속 이의를 제기하며, 결국 자체적으로 좋은 대안을 제시하지도 못함
- 대화가 끝없이 늘어나는 문제 — 작업에 집중하지 못하고 산만해짐
- 큰 기능 구현 시 많은 부분을 빠뜨리고, 기존 코드베이스를 제대로 파악하지 못하는 경우 발생
- 포매터가 존재하는데 새로운 포매터를 자체 생성하거나, ViewModel에 하드코딩된 문자열을 삽입하는 등
- 기능 면에서 Claude Code 대비 hooks, MCP 지원, 플러그인 등이 뒤처져 전환 시 퇴보하는 느낌
Claude Code의 고질적 문제에 대한 공감
- Claude가 사용자의 지시를 무시하고 자기가 원하는 대로 행동하는 패턴에 대한 광범위한 동의
- "Claude는 당신이 원한다고 상상하는 것을 실행하려 함" — 지시 준수 신뢰성이 낮음
- 리스트 100개 객체를 하드코딩해놓고 성공이라고 주장, 이를 방지하는 hooks마저 우회하는 사례 목격
- 최근 몇 달간 Claude의 복잡한 코드에서 진짜 문제를 찾지 못하는 경향 심화
- 근본 원인이 아닌 증상만 패치하면서 "문제를 찾았다"고 자신 있게 주장
- Codex가 Claude의 자신감 있는 (하지만 틀린) 분석에 오도되는 경우도 발생
- Claude의 크레딧 소모 속도가 너무 빨라 구독을 취소했다는 사용자도 존재 — 학습할 시간조차 확보 불가
반대 의견: Claude가 여전히 우위라는 시각
- Opus 4.6이 더 신중하고 깊이 있는 사고를 보여주며, 설계/아키텍처 단계에서 GPT-5.4보다 분석 품질이 높다는 경험
- GPT-5.4가 찾지 못한 이슈를 Opus가 리뷰에서 추가 발견하는 경우 존재
- 다만 최근 Claude 모델이 "노력을 덜 쓰도록" 수정되었다는 소문과 관련 있을 가능성
- Clean Architecture를 요구하면 Claude도 새 파일을 적극적으로 생성하며 god class 문제가 발생하지 않음
- 두 도구 모두 아키텍처를 준수하면 코드 품질은 거의 동등, 차이는 속도와 사용 편의성에서 발생
- 체계적인 워크플로우(plan mode + 커스텀 스킬 + coderabbit/sonarqube 피드백)를 구축하면 다른 사용자들이 불만을 토로하는 기간에도 좋은 코드를 생산하며 한도에 걸리지 않음
기타 흥미로운 의견
- "Anthropic 팀이 그렇게 많은 기능을 출시할 수 있는 게 인상적, 코드 100%를 Claude가 작성한다는 점을 감안하면" (풍자)
- "Codex로 코딩하고 → Claude에서 리뷰 → Gemini도 리뷰에 투입" — 3개 모델 교차 리뷰 전략, Sonnet이 Opus가 놓치는 것을 잡아내는 경우도 있음
- "아마 Mythos(차세대 모델)가 나오면 이런 핸들링이 줄어들 것" 이라는 기대
어떤 도메인에 적용하느냐에 따라 다른거 아닐까요?
제가 현재 진행하는 rhwp 같이 1mm 렌더링 차이 잡아서 처리할 때 Codex 쓰면 망가집니다. 아직까지 고난이도는 Claude Code 가 앞서 있지만 절차에 따라 어느정도 수준까지만 처리하면 돼는 워크플러우와 프레임워크만 있으면 되는 웹 앱 개발은 Codex 를 쓰는게 정신건강에 좋을 것으로 저는 느끼고 있습니다.
코덱스 꼼꼼한것 동의합니다. 클로드로 짜고 코덱스로 리뷰하는것 추천합니다. 시간이 많이 걸리지만 화장실 가기전이나 회의전에 걸어 놓으면 완료율도 높더라구요.
저도 이렇게 하고 있습니다. 조금더 디테일하게는 100달러 짜리 클로드 200달러짜리 코덱스로 해두고 클로드 코드 오퍼스로 계획 -> 소넷으로 구현 -> 코덱스 리뷰 -> 오퍼스로 리뷰 검증 -> 다시 소넷 구현 -> 코덱스 리뷰 (이하 반복) 이렇게 계속 돌리게 아애 스킬로 만들어버렸는데 만족하고 있습니다.
저도 이렇게 쓰고있습니다. 다만 역할을 한 모델에 고정한다기보다, 쿼타가 가장 널널하지만 파워풀한 모델에게 먼저 배정하는 식으로 하고있어요.
전 둘다 사용해보고 그 반대라고 생각했는데 아닌가보네요
제가 쓸때는 코덱스는 지침을 무시하는 경우가 많았거든요
최근에 엔트로픽이 4.6 opus 성능을 낮춰서 변한거같기도 하네요