Claude와 몇 달간 씨름한 뒤 Codex는 바이브 코더의 꿈처럼 느껴짐
(reddit.com)- 3개월간 Claude/Anthropic으로 코딩했지만 repo 규모 작업에서 신뢰성이 낮아져 별도 감시 워크플로가 필요해짐
- 4.7 시기에는 실제 구현이 약 40%인데 완료됐다고 환각하거나 stub/placeholder 주변에서 과도한 자신감을 보임
- Max x20 비용에도 생산성보다 토큰 소비와 감독 부담이 더 커졌고, 5월 12일 GPT-5.5 + Codex로 전환함
- Codex는 과도한 프롬프트 없이 인접 코드를 더 잘 이해하고 회귀를 잡아 lint/test 루프와 대규모 리팩터링이 관리 가능해짐
- 마이그레이션은 CLAUDE.md→AGENTS.md 이동과 hooks 유지 정도로 끝났고, 해당 워크플로에서는 되돌아갈 생각이 없음
Claude에서 Codex로 전환한 뒤 달라진 개발 흐름
- 지난 3개월 동안 주로 Claude/Anthropic으로 코딩했으며, Opus 4.6 출시 당시에는 아키텍처 이해, 큰 컨텍스트 처리, 빠른 기능 구현이 강점으로 다가옴
- 시간이 지나며 repo 규모 작업에서 신뢰성이 낮아졌고, 모델을 감시하기 위한 별도 워크플로가 필요해짐
- 인접 파일 회귀를 확인하는 여러 에이전트
- 주요 커밋마다 붙는 “senior reviewer” 에이전트
- 구현 드리프트와 미완성 구현을 확인하는 지속 검증
- 모델이 완료됐다고 자신 있게 말한 작업을 잡아내는 lint/test 파이프라인
- 4.7 시기에는 개인 워크플로에서 문제가 더 커짐
- 실제 구현은 약 40% 수준인데 기능이 완료됐다고 환각함
- stub/placeholder 주변에서 근거 없는 자신감을 보임
- 현실적으로 가능한 변경에도 “별도 세션이 필요하다”거나 과도한 일정을 추정하는 회피 행동이 나타남
- Max x20 비용을 내고 있었지만 생산성 향상보다 토큰 소비 증가와 감독 부담 증가가 더 크게 다가옴
- 결국 5월 12일에 GPT-5.5 + Codex로 전환했고, AI 코딩이 몇 달 만에 스트레스보다 편안함에 가까워짐
GPT-5.5 + Codex에서 체감한 장점
- Codex는 과도한 프롬프트 없이도 인접 코드를 잘 이해하고, 회귀를 더 잘 잡아냄
- lint/test 피드백 루프가 더 빡빡하게 작동하고, 대규모 리팩터링도 실제로 관리 가능해짐
- 인프라 결정과 아키텍처 변경이 조각난 느낌보다 일관된 방향으로 이어지고, 완료된 척하기보다 실제로 작업을 끝내는 쪽에 가까움
/fast는 주간 사용량을 빠르게 소진할 것 같아 대부분 피하지만, high/xhigh만으로도 생산성 향상이 컸음- 전체 저장소 zip을 GPT-5.5 Pro extended thinking에 넣으면 다른 모델들이 반복해서 실패한 문제를 해결하는 데 도움이 됨
- 마이그레이션도 큰 마찰이 없었음
- 모두가 즉시 옮겨야 한다는 뜻은 아니지만, 해당 워크플로에서는 당분간 되돌아갈 생각이 없음
댓글과 토론
"실제 구현이 약 40%인데 완료됐다고 환각하거나 stub/placeholder 주변에서 과도한 자신감을 보임"
진짜 완수 수준에 대한 환각이 너무 빡치고 공감되는 부분
Reddit 의견들
-
AI 도구는 좋아하는 스포츠 팀 고르듯 한쪽만 응원할 일이 아님. 둘 다, 가능하면 전부 익혀두고 이번 주에 가장 잘 맞는 걸 쓰면 됨
다음 달에는 달라질 수 있음. 나는 구독을 두 개 쓰지만, 모두가 그렇게 할 수 있는 건 아니라는 점도 알고 있음- 지금은 정말 그런 분위기지만, 대체로 누군가가 다른 선택을 하면 마치 내가 틀렸다는 말을 들은 것처럼 느끼는 인간의 성향 때문이라고 봄
도구들은 다 괜찮고, 어떤 사람은 한쪽에서 더 좋은 결과를 얻기도 하며, 말한 것처럼 다음 주에는 완전히 달라질 수도 있음 - 나도 지금 내게 잘 맞는 쪽이면 누구든 상관없고, 계속 테스트하고 계속 실험하는 편임
- 맞음. 모델은 계속 변하는 중임. 오늘은 Anthropic, 내일은 OpenAI, 다시 Anthropic, 다음 주에는 중국의 새 도전자, 다음 달에는 Google이 정신 차릴 수도 있음. 계속 반복됨
- 일주일 정도 Codex와 Gemini를 만져봤는데, 지금까지는 Codex가 나한테 가장 잘 맞음
다만 Kinguin에서 18개월 프리미엄 15€ 쿠폰을 찾아 Gemini도 쓰고 있어서, 할당량에 걸리면 일부 작업은 Gemini로 넘김
- 지금은 정말 그런 분위기지만, 대체로 누군가가 다른 선택을 하면 마치 내가 틀렸다는 말을 들은 것처럼 느끼는 인간의 성향 때문이라고 봄
-
Opus 4.7은 유용하고 생산적인 척하는 데, 그리고 보여주기식 수행에 초점이 맞춰진 느낌임
Codex는 실제로 일을 해냄 -
작업 흐름을 조금 더 공유해줄 수 있으면 좋겠음. 무엇을 어떻게 하는지 배우고 따라 해보고 싶음
왜 전체 저장소를 GPT에 넣는지, 어떤 기술과 책을 쓰는지도 궁금함
나는 프롬프트를 넣고 Codex가 끝나길 기다린 다음, 예전에는 스스로 했던 주변의 명백한 작업을 했는지 다시 물어보게 됨. 그러면 그제야 처리하고, 이후/review와 수동 테스트에 시간을 쓰고, 다시 작은 작업 단위로 넘어감. 큰 기능에는 plan을 쓰고, VSCode 확장도 쓰며, 5.4와 5.5 둘 다 써봤지만 전자가 더 맞는 것 같음 -
여기서 OpenAI가 아닌 모델은 어떻게 사용할 수 있음?
-
Claude의 문제는 Codex처럼 계속 실행되지 않는다는 점임. Claude가 더 나을 수도 있지만, Codex는 작업을 끝까지 완료하려고 함
Claude는 그냥 멈추고, 설령 그런 능력이 있어도 너무 비싸서 큰 차이는 없을 듯함. 어쩌면 비슷하거나 더 좋을 수도 있지만 이제는 잘 모르겠고 안 쓰고 있음. 4.5는 처음 나왔을 때 최고였음 -
Codex가 마법처럼 느껴지는 건 나도 그랬는데, 망가질 때까지 기다려보면 됨. 3일 전까지는 나도 그렇게 느꼈지만, 지금은 솔직히 Claude보다 더 안 좋아진 느낌임
프로 계정 5개로 24시간 쓰는 중이라 확실히 말할 수 있는데, 1주 전의 모습이 아니고 지금은 정말 많이 나빠졌음- Altman이 목요일/금요일에 Codex 상태가 엉망이었다고 인정했고, 무엇이 바뀌었는지 파악하려는 중이라고 함
- 캐싱 문제 때문에 성능 저하가 있었고, 관련해서 트윗도 올라왔음. 지금은 롤백했고 성능이 기준선으로 돌아왔다고 함
- 프로 계정 5개라니, Plus 계정을 말하는 거임?