# Claude Code(~100시간) vs. Codex(~20시간) 비교

> Clean Markdown view of GeekNews topic #28538. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28538](https://news.hada.io/topic?id=28538)
- GeekNews Markdown: [https://news.hada.io/topic/28538.md](https://news.hada.io/topic/28538.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-15T11:01:02+09:00
- Updated: 2026-04-15T11:01:02+09:00
- Original source: [reddit.com](https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/)
- Points: 59
- Comments: 18

## Summary

14년차 시니어 엔지니어가 **8만 줄 규모 실제 프로젝트**에서 Claude Code(Opus 4.6)와 OpenAI Codex(GPT-5.4)를 나란히 쓰며 비교한 글입니다. Claude Code는 빠르지만 **지시 무시와 반쪽짜리 완료**가 잦아 적극적인 감시가 필요하고, Codex는 3~4배 느리지만 **자발적으로 리팩토링하며 지시 파일을 충실히 따르는** 차이가 인상적입니다. 두 도구 모두 "소프트웨어 엔지니어링 역량 없이는 좋은 결과를 내기 어렵다"는 결론이 가장 핵심인데, 코딩 에이전트 도입을 고민하는 팀이라면 **기대치 설정**에 큰 도움이 될 글입니다.

## Topic Body

- 14년 경력의 시니어 엔지니어가 **8만 줄 규모의 Python/TypeScript 프로젝트**에서 Claude Code(Opus 4.6)와 Codex(GPT-5.4)를 실전 비교한 경험담  
- Claude Code는 **빠르고 인터랙티브**하지만 지시 무시, 작업 미완료, 기존 파일에 함수를 무분별하게 추가하는 등 적극적인 관리가 필요  
- Codex는 **3~4배 느리지만 더 신중하고 체계적**으로 코드를 작성하며, 자발적으로 리팩토링하고 지시 파일(AGENTS.md)을 철저히 준수  
- Claude Code는 빠른 프로토타이핑에, Codex는 **엔터프라이즈급 소프트웨어 개발**에 적합하다는 평가  
- 결론적으로 두 도구 모두 **소프트웨어 엔지니어링 역량이 없으면 좋은 결과를 내기 어렵다**는 공통점이 있음  
  
---  
  
### 작성자 배경 및 개발 환경  
- MAG7(미국 빅테크 7사) 및 또 다른 주요 기술 기업에서 14년간 근무한 **Principal/Staff Eng Manager급** 엔지니어  
- 플랫폼 레벨 개발 경험이 주력이며 **분산 시스템** 경험이 풍부  
- 프로젝트는 VSCode 확장으로 구성된 **Python/TypeScript 기반 8만 줄 코드**, 테스트 약 2,800개  
- 사용자가 PDF/CSV/XML 파일을 업로드하면 파싱 후 **Postgres 기반 구조화된 데이터 모델**로 정규화하는 데이터 분석 애플리케이션  
- 백엔드 실시간 데이터 제공자와 **WebSocket**으로 연결되어 현재 데이터를 데이터 모델에 스트리밍  
- 서버 측에서 데이터 스트림 기반 분석을 업데이트하고 **SSE(Server-Sent Events)** 로 웹 UI에 전달  
- 바이브 코딩이 아닌 **체계적 아키텍처 기반** 개발  
  
### 공통 에이전트 워크플로우  
- 먼저 **Plan 모드**에서 충분히 범위가 정해진 프롬프트로 시작하고, plan-review 스킬로 **8개의 서브에이전트**(아키텍처, 코딩 표준, UI 디자인, 성능 등)를 실행  
- 각 서브에이전트는 이전 리서치 세션에서 생성한 참조 문서(예: `postgres_performance.md`, `python_threading.md`, `software_architecture.md`)와 함께 **구체적인 프롬프트**를 보유  
  - 아키텍처 리뷰 전문가는 **SOLID, DRY, KISS, YAGNI** 등의 개념별 참조와 함께 리뷰하도록 프롬프트 구성  
- 코드 작성 후 각 계획 단계별로 **개별 커밋**, code-review 스킬(plan 서브에이전트 재활용)로 각 커밋을 리뷰하고 수동으로 피드백 확인 및 조정  
- **CLAUDE.md는 약 100줄**로 구성, TDD, Git 워크플로우, 주요 DevEx 컨벤션, Docker 명령어 등 프로젝트 도구 사용법 포함  
  
### Claude Code 경험 (Opus 4.6)  
- 마감에 쫓기는 엔지니어 같은 느낌으로, 핵심 아키텍처를 재검토하기보다 **핵, 패치, 헬퍼 함수 남발**로 기능 구현에만 집중하는 경향  
- **인터랙티브**하지만 그만큼 더 많은 관리(babysitting)가 필요  
- 빠르게 동작하는 코드를 만들지만, 행동 전에 **충분히 생각하지 않음**  
- 컨텍스트를 적극적으로 수동 관리해도(1M 컨텍스트는 초보자 함정이며 **1/4 이하로 유지**해야 한다고 판단) 거의 매 세션마다 **CLAUDE.md를 노골적으로 무시**하는 경우 발생  
- 작업을 **반쯤 완료한 채 남겨두는 경우**가 종종 있음  
  - 예: 8개 테스트 스위트의 비동기 패턴 마이그레이션 시 대부분은 처리하지만 일부를 구 패턴으로 방치  
- 새 기능을 위한 **새 파일 생성을 거의 하지 않고**, 기존 파일에 함수를 계속 추가하는 경향  
  - 강한 OO 원칙과 파일당 600줄 이하 유지 선호와 충돌  
- 테스트가 깨지면 **프롬프트 없이 임의로 수정**하려는 경향이 있어, "테스트가 깨지면 멈추고 나에게 물어라"는 지시를 많이 추가해야 함  
  - 작성하는 테스트의 95%는 유용하나 **5%는 잘못된 동작을 고정**시키며, 시간이 지나면 이것이 누적  
  
### Codex 경험 (GPT-5.4)  
- **5~6년차 주니어 시니어** 엔지니어 같은 느낌으로, 별도 지시 없이도 스스로 멈추고 코드를 더 깔끔하게 **리워크**  
- Claude보다 **3~4배 느림** (동일 작업 기준)  
- 더 **신중하고 의도적**으로 작업하며, Claude처럼 'god class'를 확장하지 않고 자동으로 코드를 더 타이트하게 팩토링  
- 작업 도중 자신의 가정을 재검토하고 **중간에 리워크**하여 정리  
- 예상하지 못한 **부가가치 있는 작업**을 자발적으로 수행하는 경우도 발생  
- **AGENTS.md를 무시하는 것을 한 번도 목격하지 못함**, 세션 도중 지시를 오버라이드하려 해도 허용하지 않음  
- 충분한 역량을 입증했기에 작업을 실행시켜 놓고 **완료 후 리뷰하는 방식**으로 전환 가능, 실시간 모니터링 불필요  
  
### 종합 비교  
- **Codex Pro x5**의 사용량 상한이 Claude x20과 비슷한 수준  
- Codex는 눈에 띄게 **느리고 덜 인터랙티브하지만 더 신중**, Claude는 **빠르고 인터랙티브하지만 관리 필요**(babysitting)  
- Claude로 한 세션에서 **더 많은 작업량**을 처리할 수 있지만, Codex의 **작업 품질이 더 높음**  
  - Claude는 극도로 빠른 프로토타이핑과 빌드가 가능하나 며칠마다 리팩토링을 가이드해야 함  
  - Codex도 앱이 성장하면 리팩토링이 필요하지만, "어떤 문제를 정리해야 하나" 수준이 아닌 **"앱이 커져서 리팩토링할 시점"** 수준  
- 낮은~중간 복잡도 프로젝트의 **바이브 코딩**에는 Claude가 더 빠르게 완성 가능  
- **엔터프라이즈 소프트웨어** 구축에는 Codex가 더 적합  
- 두 도구 모두 유용하지만, Claude는 Codex보다 **숙련되고 집중력 있는 운전자**가 더 필요  
- 소프트웨어 엔지니어링을 전혀 모르면 **두 도구 모두 좋지 않은 결과물** 산출  
  
---  
### 📋 Reddit 댓글 주요 논점 정리  
  
### 두 도구 병행 사용 전략 (가장 많이 언급)  
- Claude로 초안/빠른 작업 → Codex로 코드 리뷰하는 **교차 검증 워크플로우**가 가장 인기 있는 패턴  
  - "Claude가 작성한 코드를 Codex에 리뷰시키고, 그 반대도 해보라" — 두 모델이 **같은 방식으로 환각(hallucination)하는 경우는 극히 드묾**  
- Claude 토큰 소진 후 Codex로 **배턴패스(baton-pass) 전략**을 쓰는 사용자도 있음  
  - `save-state.md`와 `next-task.md`에 상태를 저장해 Codex가 이어받는 구조, 매 전환마다 핸드오프 품질이 개선됨  
- Codex CLI를 **MCP 서버로 감싸서** Claude Code 안에서 Codex 협업을 자동화하는 사례도 존재  
  - Claude 작업 후 Codex가 제안을 반환하면 Claude가 이를 구현하는 방식으로 **코드 품질이 극적으로 향상**  
- 하루 종일 Codex로 작업하다가 **마무리 단계에서 Claude로 폴리싱**한 뒤 다시 Codex로 돌아가는 흐름도 유효  
  
### Codex의 장점에 대한 공감  
- Claude Code를 **20x($200) 플랜에서 5x($100)로 다운그레이드**하고 Codex $100 플랜을 병행하는 사용자 등장  
- GPT-5.4와 Opus 4.6 사이에 **심각한 품질 격차는 감지되지 않으며**, 문제에 따라 50:50으로 엇갈림  
- "그냥 맡기고 커피 마시고 돌아오면 끝나 있음" — **자율 실행(fire-and-forget)** 측면에서 Codex가 Opus보다 우위  
- AGENTS.md 지시를 Codex가 **거부할 정도로 철저히 준수**, 명시적으로 오버라이드를 지시해야 무시함  
- 순수 Codex로 **플랜 + 구현 + 별도 Codex 인스턴스로 리뷰**하는 체계로 전환한 뒤 결과가 더 좋아졌다는 보고  
  
### Codex의 단점  
- **로봇 같은 커뮤니케이션 스타일**이 가장 큰 불만  
  - Python dict 값 `[0.1, 0.3, 0.5, 0.7, 0.9]`를 한 줄에 쓰지 않고 **각 값을 한 줄씩 나열**하는 식으로 출력  
  - RL 학습이 "불릿 포인트를 많이 쓸수록 좋다"는 방향으로 보상한 것 같다는 추측  
  - 커뮤니케이션 설정을 조정해도 **극단(과소 vs 과다) 사이를 오가며** 적정 수준을 찾기 어려움  
- **사용자에게 끊임없이 반박**하려는 경향 — 경력 10년 이상 개발자가 명확히 지시해도 계속 이의를 제기하며, 결국 자체적으로 좋은 대안을 제시하지도 못함  
- 대화가 **끝없이 늘어나는 문제** — 작업에 집중하지 못하고 산만해짐  
- 큰 기능 구현 시 **많은 부분을 빠뜨리고**, 기존 코드베이스를 제대로 파악하지 못하는 경우 발생  
  - 포매터가 존재하는데 **새로운 포매터를 자체 생성**하거나, ViewModel에 **하드코딩된 문자열**을 삽입하는 등  
- 기능 면에서 Claude Code 대비 **hooks, MCP 지원, 플러그인 등이 뒤처져** 전환 시 퇴보하는 느낌  
  
### Claude Code의 고질적 문제에 대한 공감  
- Claude가 **사용자의 지시를 무시하고 자기가 원하는 대로 행동**하는 패턴에 대한 광범위한 동의  
  - "Claude는 당신이 원한다고 **상상하는 것**을 실행하려 함" — 지시 준수 신뢰성이 낮음  
  - 리스트 100개 객체를 **하드코딩해놓고 성공이라고 주장**, 이를 방지하는 hooks마저 **우회**하는 사례 목격  
- 최근 몇 달간 Claude의 **복잡한 코드에서 진짜 문제를 찾지 못하는 경향** 심화  
  - 근본 원인이 아닌 **증상만 패치**하면서 "문제를 찾았다"고 자신 있게 주장  
  - Codex가 Claude의 자신감 있는 (하지만 틀린) 분석에 **오도되는 경우**도 발생  
- Claude의 **크레딧 소모 속도**가 너무 빨라 구독을 취소했다는 사용자도 존재 — 학습할 시간조차 확보 불가  
  
### 반대 의견: Claude가 여전히 우위라는 시각  
- Opus 4.6이 **더 신중하고 깊이 있는 사고**를 보여주며, 설계/아키텍처 단계에서 GPT-5.4보다 분석 품질이 높다는 경험  
  - GPT-5.4가 찾지 못한 이슈를 Opus가 **리뷰에서 추가 발견**하는 경우 존재  
  - 다만 최근 Claude 모델이 **"노력을 덜 쓰도록" 수정**되었다는 소문과 관련 있을 가능성  
- Clean Architecture를 요구하면 Claude도 **새 파일을 적극적으로 생성**하며 god class 문제가 발생하지 않음  
  - 두 도구 모두 아키텍처를 준수하면 **코드 품질은 거의 동등**, 차이는 속도와 사용 편의성에서 발생  
- 체계적인 워크플로우(plan mode + 커스텀 스킬 + coderabbit/sonarqube 피드백)를 구축하면 **다른 사용자들이 불만을 토로하는 기간에도** 좋은 코드를 생산하며 한도에 걸리지 않음  
  
### 기타 흥미로운 의견  
- "Anthropic 팀이 그렇게 많은 기능을 출시할 수 있는 게 인상적, **코드 100%를 Claude가 작성**한다는 점을 감안하면" (풍자)  
- "Codex로 코딩하고 → Claude에서 리뷰 → Gemini도 리뷰에 투입" — **3개 모델 교차 리뷰** 전략, Sonnet이 Opus가 놓치는 것을 잡아내는 경우도 있음  
- "아마 **Mythos**(차세대 모델)가 나오면 이런 핸들링이 줄어들 것" 이라는 기대

## Comments


### Comment 55376

- Author: brainer
- Created: 2026-04-15T11:53:07+09:00
- Points: 4

둘 중 뭐건 HITL이 필요합니다. (적어도 오늘까지는)  
제발 무슨 Ralph Loop이니 같은 소리는 안 했으면 좋겠어요.

### Comment 55749

- Author: loblue
- Created: 2026-04-18T13:47:22+09:00
- Points: 1

Codex 만 쓰고 있는데 제가 느끼는 점과 정확히 일치하네요.  
제 성향과도 맞아서 잘 쓰고 있습니다.  
카톡 chatgpt 끝나면 claude 로 넘어갈 생각하고 있었는데  
어째 claude 의 단점이 제 성향과 안맞을 것 같은 느낌이네요..

### Comment 55668

- Author: oberon
- Created: 2026-04-17T10:43:00+09:00
- Points: 1

calude와 codex 사용자들의 주력언어 차이가 있을려나요.

### Comment 55507

- Author: tested
- Created: 2026-04-15T21:15:56+09:00
- Points: 1

> 사용자에게 끊임없이 반박하려는 경향 — 경력 10년 이상 개발자가 명확히 지시해도 계속 이의를 제기하며, 결국 자체적으로 좋은 대안을 제시하지도 못함  
  
ㅋㅋ

### Comment 55499

- Author: clash4970
- Created: 2026-04-15T19:15:03+09:00
- Points: 1

사용 방식의 차이도 있을 것 같네요. 개발자의 성향에 따라서 헨들링하는 방식이 다르고 취향이 다른 것 처럼요. 많이 사용하다보니 특정 모델과 작업하는 플로우가 익숙해져서 다른 모델이 어색할 수도 있겠네요.

### Comment 55487

- Author: sea715
- Created: 2026-04-15T18:01:15+09:00
- Points: 1

특정 모델을 고집할 이유가 있나 싶네요~

### Comment 55430

- Author: tangokorea
- Created: 2026-04-15T14:53:14+09:00
- Points: 1

어떤 도메인에 적용하느냐에 따라 다른거 아닐까요?  
제가 현재 진행하는 rhwp 같이 1mm 렌더링 차이 잡아서 처리할 때 Codex 쓰면 망가집니다. 아직까지 고난이도는 Claude Code 가 앞서 있지만 절차에 따라 어느정도 수준까지만 처리하면 돼는 워크플러우와 프레임워크만 있으면 되는 웹 앱 개발은 Codex 를 쓰는게 정신건강에 좋을 것으로 저는 느끼고 있습니다.

### Comment 56094

- Author: act1000
- Created: 2026-04-23T08:38:25+09:00
- Points: 1
- Parent comment: 55430
- Depth: 1

잘쓰고 있습니다   
맥에서 뷰어보다 로딩속도도 빠르고 최고예요!

### Comment 55967

- Author: kyg5474
- Created: 2026-04-21T13:03:20+09:00
- Points: 1
- Parent comment: 55430
- Depth: 1

압도적으로 감사합니다

### Comment 55673

- Author: ifmkl
- Created: 2026-04-17T11:13:18+09:00
- Points: 1
- Parent comment: 55430
- Depth: 1

오오 잘쓰고있습니다. 훌륭한 프로젝트 감사합니다.

### Comment 55555

- Author: dhlee0305
- Created: 2026-04-16T10:42:08+09:00
- Points: 1
- Parent comment: 55430
- Depth: 1

rhwp 잘쓰겠습니다.  
- respect

### Comment 55399

- Author: bungker
- Created: 2026-04-15T13:34:53+09:00
- Points: 1

코덱스 꼼꼼한것 동의합니다.  클로드로 짜고 코덱스로 리뷰하는것 추천합니다. 시간이 많이 걸리지만 화장실 가기전이나 회의전에 걸어 놓으면 완료율도 높더라구요.

### Comment 55402

- Author: oneforall88
- Created: 2026-04-15T13:38:12+09:00
- Points: 1
- Parent comment: 55399
- Depth: 1

저도 이렇게 하고 있습니다. 조금더 디테일하게는 100달러 짜리 클로드 200달러짜리 코덱스로 해두고 클로드 코드 오퍼스로 계획 -> 소넷으로 구현 -> 코덱스 리뷰 -> 오퍼스로 리뷰 검증 -> 다시 소넷 구현 -> 코덱스 리뷰 (이하 반복) 이렇게 계속 돌리게 아애 스킬로 만들어버렸는데 만족하고 있습니다.

### Comment 55407

- Author: minhoryang
- Created: 2026-04-15T13:53:15+09:00
- Points: 1
- Parent comment: 55402
- Depth: 2

저도 이렇게 쓰고있습니다. 다만 역할을 한 모델에 고정한다기보다, 쿼타가 가장 널널하지만 파워풀한 모델에게 먼저 배정하는 식으로 하고있어요.

### Comment 55385

- Author: gpdir16
- Created: 2026-04-15T13:04:46+09:00
- Points: 1

전 둘다 사용해보고 그 반대라고 생각했는데 아닌가보네요  
제가 쓸때는 코덱스는 지침을 무시하는 경우가 많았거든요  
최근에 엔트로픽이 4.6 opus 성능을 낮춰서 변한거같기도 하네요

### Comment 55371

- Author: master6559
- Created: 2026-04-15T11:43:14+09:00
- Points: 1

반대아닌가? 시니어가 생각보다 모자르네

### Comment 55383

- Author: wedding
- Created: 2026-04-15T12:45:04+09:00
- Points: 2
- Parent comment: 55371
- Depth: 1

`Claude Code의 고질적 문제` 이거 안 겪어보셨나보네요. 레딧에서도 맨날 난리입니다.

### Comment 55382

- Author: shblue21
- Created: 2026-04-15T12:44:14+09:00
- Points: 1
- Parent comment: 55371
- Depth: 1

저는 codex가 더 좋은 경험이었습니다.