GPT-5-Codex

(openai.com)

16P by GN⁺ 5달전 | ★ favorite | 댓글 6개

GPT-5-Codex는 실제 소프트웨어 엔지니어링을 위해 최적화된 모델로, 짧은 대화형 세션부터 장시간 독립적 작업까지 모두 지원
새 모델은 코드 리뷰 기능이 강화되어 의존성 탐색, 테스트 실행, 의도와 구현 비교를 통해 중요한 결함을 조기에 포착
대규모 코드 리팩토링 등에서 우수한 성능을 보이며, 사용자 요구에 따라 동적으로 작업 시간을 조절함
Codex CLI와 IDE 확장이 개편되어 이미지 첨부, 작업 진행 추적, 웹 검색과 MCP 연동 등 에이전트형 워크플로우에 맞게 개선
GitHub 통합을 통해 PR 자동 리뷰와 수정 제안까지 가능해져 팀의 리뷰 부담을 줄이고 출시 신뢰성을 높임
Codex는 이제 ChatGPT Plus, Pro, Business, Edu, Enterprise 요금제에 포함

GPT-5-Codex

GPT-5-Codex는 복잡한 실제 엔지니어링 작업(프로젝트 빌드, 기능 추가, 대규모 리팩터링, 디버깅, 코드 리뷰)에 특화된 모델임
- AGENTS.md 지침 준수 능력이 향상되어 코드 스타일이나 청결성에 대한 긴 설명 없이도 원하는 결과를 얻을 수 있음
작업 난이도에 따라 사고 시간을 동적으로 조정함
- 단순 요청에는 빠르게 응답하고, 대규모 작업에는 수 시간 이상 독립적으로 실행하며 결과를 개선함
코드 리뷰에 최적화되어 코드베이스 탐색, 의존성 분석, 테스트 실행으로 정확한 검증을 수행함
- 오픈소스 프로젝트 커밋 검증에서 GPT-5-Codex의 리뷰가 더 신뢰성 있게 평가됨
프론트엔드 작업에서도 강력하며, 클라우드에서는 이미지 입력을 활용해 진행 상황을 시각적으로 검토하고 결과를 스크린샷으로 공유할 수 있음
GPT-5는 범용 모델인 반면 GPT-5-Codex는 Codex 환경 전용 에이전트형 코딩 작업을 위해 설계됨

Codex 업데이트

Codex CLI와 IDE 확장이 에이전트형 코딩 경험 중심으로 재설계됨
- CLI에서는 이미지 첨부, 작업 진행 To-Do 관리, 외부 시스템 연결이 가능해짐
- 터미널 UI는 툴 호출과 diff가 더 보기 쉽게 개선됨
- 승인 모드는 단순화되어 보안과 편의성을 동시에 제공함
IDE 확장은 VS Code, Cursor 등에서 동작하며, 파일과 선택 코드 기반으로 더 짧은 프롬프트로 빠른 결과를 제공함
- 로컬과 클라우드 환경을 매끄럽게 오가며, 진행 중인 작업 추적과 완료된 작업 검토 지원
클라우드 환경에서는 캐싱을 통한 속도 향상(90% 단축), 자동 환경 설정, 인터넷 접근 제어 기능이 강화됨
- UI 디자인 사양이나 버그 보고 시 이미지를 활용할 수 있으며, Codex가 자체 브라우저를 열어 결과물을 확인하고 PR에 스크린샷을 첨부 가능
GitHub 통합으로 PR 자동 리뷰 및 수정 제안 지원
- “@codex review” 명령어로 특정 리뷰 요청 가능
- OpenAI 내부에서도 PR의 대부분을 Codex가 사전 검토하며 수백 건의 이슈를 조기 발견함

안전성과 보안

Codex는 샌드박스 환경에서 기본 실행되어 네트워크 접근이 제한됨
- 승인 기반으로 위험 명령 실행 여부를 제어할 수 있고, 신뢰 도메인만 허용 가능
개발자는 보안 수준을 환경에 맞게 조정 가능하며, Codex는 각 작업에 로그와 테스트 결과를 제공해 검증을 돕음
인간 리뷰를 대체하지 않고 보조 리뷰어로 활용하는 것이 권장됨
GPT-5-Codex는 생물학·화학 도메인에서 높은 능력을 가진 모델로 분류되어 안전 장치가 적용됨

가격 및 제공

Codex는 ChatGPT Plus, Pro, Business, Edu, Enterprise 요금제에 포함됨
- Plus/Edu/Business는 주 1~2회 세션에 적합, Pro는 풀타임 개발 주간 작업 지원
Business 요금제는 크레딧 추가 구매 가능, Enterprise는 공유 크레딧 풀로 운영
Codex CLI API 키 사용자에게도 곧 GPT-5-Codex 제공 예정
Codex는 더 빠르고 신뢰할 수 있는 코딩 파트너로 발전하며, 팀의 야심찬 프로젝트 수행을 돕는 도구로 자리잡을 것

▲

aeolian21 4달전 [-]

여러 맥락을 고려해야 하는 이슈에 대한 문제 해결능력이 떨어지고 전반적으로 불필요한 디자인패턴 코드를 많이 사용함. 학습에 실무 코드가 아닌 교육용 예제 코드가 주로 활용되었다는 인상을 강하게 줌.
종합적으로 gemini와 상당한 퍼포먼스 차이가 있음.

답변달기

▲

bluekai17 4달전 [-]

claude code랑 비교하면 아직은 claude code가 좀더 쓸만할까요

답변달기

▲

kuthia 4달전 [-]

결국 좋은 AI 도구는 사용자의 교양(?)수준을 고려하면서도 결과물의 수준을 일정 수준으로 보장하는 것이 좋은 사용자 경험이 될까요?
모든 수준의 사용자가 한결같이 더 나은 무언가를 AI 도구에게서 바라고 있는 점은 재밌네요.

답변달기

▲

slowandsnow 4달전 [-]

클로드 너무 불편해서 넘어가볼까 싶네요.

혹시 어떤 점이 불편하신가요?

GN⁺ 5달전 [-]

Hacker News 의견

새로운 모델 프롬프트 크기가 이전보다 거의 절반(10KB vs 23KB)으로 줄어듦을 확인함 (관련 리소스: 이전 프롬프트 예시, 더 오래된 프롬프트 예시)
SWE-bench 기준 성능은 기존 gpt-5와 비슷하지만, gpt-5-codex는 코드 리팩터 분야에서 (내부 벤치 기준 33.9% -> 51.3%) 주로 강화된 것으로 보임
최근 Codex CLI(gpt-5-high)로 여러 내부 라이브러리를 패키지로 분리하는 대규모 리팩터를 시도했는데, 모델이 파일 삭제 후 재작성 과정에서 자주 버그가 발생했음(중요 파일이 누락되는 경우 등)
개인적으로는 파일을 그냥 복사해서 패키지별로 수정하는 접근을 선호했는데, 이번 개선에서는 더 나은 툴 콜링이 적용된 듯함
또한, 새 모델이 더 "Steerable"(명시적으로 제어 가능)하다고 주장하는데, 내 경험상 Codex CLI(gpt-5)는 이미 Claude Code보다 컨트롤하기 훨씬 쉬웠으며, 추가 개선은 매우 환영함
- SWE-bench 점수는 gpt-5와 gpt-5-codex 모두 유사함을 동의하지만, SWE-bench라는 평가 자체는 매우 한정적인 테스트임
  같은 점수여도 실제 사용 경험은 크게 다를 수 있음
  SWE-bench가 측정하지 못하는 요소를 자세히 다루는 X(구 트위터) 스레드도 공유함: 링크
- "더 steerable하다"는 점이 오히려 불리할 수 있음
  프롬프트를 지나치게 그대로 따르기도 하기 때문임
  결과적으로 더 좋은 프롬프트 작성법과 모델 활용 방법에 대한 이해가 필요해짐
  레벨이 높은 SW 엔지니어에게는 좋지만, 감각적으로 코딩하는 개발자(vibe-coder)에게는 어려울 수 있음
- 갑자기 Codex CLI w/gpt-5-codex가 Claude Code보다 좋아졌다는 의견이 많은데, 쉽게 믿기 힘듦
- 프롬프트가 일부 더 상위 레이어로 이동되었거나, 다른 방식으로 내장(bake)된 것은 아닐지 궁금함
- 코드 리팩터링 시 패키지로 옮기려면, 파일을 직접 수동으로 이동시키는 방식을 추천함
  Codex에는 "예전에 파일이 다른 위치에 있었으니 잘 동작하게 고쳐달라"라고 지시하면 됨
  파일 이동 개념을 Codex와 다른 CLI들이 아직 잘 처리하지 못하는 것 같음
  특히 파일 삭제/이동은 git 커밋 생성 시 제대로 추적된 적이 거의 없음
오랫동안 claude-4-sonnet + Cursor 조합의 열혈 유저였으나, 최근 2달간 사용량이 급등했음
Cursor 기본 구독 후 Pro로 업그레이드했지만, 또 한계에 부딪혀 결국 Claude API키를 직접 써서 일주일에 약 70달러씩 지출하게 됨(지속은 불가능하다고 느낌)
그러다 grok-code-fast-1이 나오고 Cursor에 붙여 매일 사용하는데 빠르고, 저렴하며(지금까지 무료), 매우 만족스러웠음
최근 GPT-5도 Codex VSCode 익스텐션 공식 통해 사용해보았는데, 정말 놀라울 정도로 뛰어남
gpt-5-medium으로 리액트네이티브 앱을 대폭 리팩터, 앱 구조와 퍼포먼스 개선을 단 하룻밤에 완료(직접 했다면 최소 2일 걸릴 일)
지금은 gpt-5-medium-codex로 앱 라우팅 전체 구조 재작업을 시키고 있는데, 툴 콜도 많고, 명령 이해와 실행이 매우 체계적임
앞으로의 스택은 Cursor + grok-code-fast-1(일상용) 그리고 필요할 땐 Codex/GPT로 쓸 예정임
참고로, gpt-5-medium은 하루 종일 정말 많이 학대(?)했지만 ChatGPT Plus 계정 기준 한 번도 한도에 걸리지 않아 OpenAI 팀에 감사하는 중임
- gpt-5-medium으로 리팩터링을 시도했던 워크플로가 궁금함
  직접 테스트해볼 만한 사례가 없다 보니, 모델에 어떤 식으로 프롬프트를 주는지, 어떤 제안을 받고, 개발자로서 내 지식이 얼마나 도움이 되었는지 궁금함
  공감할 수 있는 경험이 평균 SWE, 혹은 평균적인 개발자에게도 가능한 수준인지 궁금함
- Cursor 쓴 지 1년 만에 처음으로 사용량 한도를 초과함
  Claude, GPT, 그리고 Grok까지 모두 한도에 걸린 적이 있음
  그래서 Cursor Pro 구독 내에서 사용량 추가 결제(월 $25, 즉 $20+$5)를 선택해서 Claude를 계속 사용 중인데, Grok보다 더 빨랐기 때문임
- 나 역시 거의 비슷한 선택을 하게 됨
  grok-code-fast-1이 대부분의 코딩 작업에서 잘 동작함
  opencode에서 사용하는 중이며, 무료로 일정량은 제공하는 것 같고 별도의 grok 키를 추가하지 않았는데도 쓸 수 있었음
Codex CLI IDE의 품질에 매우 감탄하고 있음
이전엔 별로라고 생각했더라도 vscode 확장판으로 다시 써보면 Plus 구독 기준으로 아낌없이 제공되는 사용량 때문에 추천함
Claude code max 구독을 버리고 ChatGPT pro $200 플랜으로 갈아탐
훨씬 빨라졌으며, 아직까지 한도에 걸린 적 없음
- aider와 gemini pro를 조합해 프로젝트 개발에 활용 중임
  구체적으로 내가 만든 툴 프로젝트를 공유함: aretecodex.tools
- Cursor를 $20짜리 플랜으로 사용 중인데 15일만에 한도에 걸려 남은 한 달은 추가 요금 내게 됨
  추천할 만한 대책이 궁금함
- CLI IDE가 정확히 뭘 의미하는지 궁금함
- 이제 claude code처럼 구독제로도 쓸 수 있는지, API만 있는지 헷갈림
이 스레드에서 많은 사용자가 Codex로 갈아타거나 Claude Code에서 이탈한 점이 흥미로웠음
Claude Code의 가장 큰 문제는, 너무 많은 작업을 시킬 경우 mock 구현이나 가짜 코드를 만들어내는 일이 자주 발생해 실제로 문제를 더 악화시켰던 점이었음
입력 프롬프트를 조정하면서도 개선이 어려워 결국 Codex로 교체했음
Codex가 이미 완전히 세팅된 코드베이스 내에서 작업하는 이점이 있긴 하지만, 실제 경험 면에서는 Codex가 훨씬 더 나았음
- Claude를 쓸 때는 1) plan-mode에서 플랜을 만들고, 2) 플랜을 구현하도록 지시하는 방식이 가장 효과적임
  다른 시스템들은 별도의 "플래닝" 모드가 없어서 처음부터 구현만 하려고 하니 프롬프트를 세심하게 튜닝해야 함
  Claude는 "계획 > 실행" 구조를 별도로 지원하니 접근법이 다름
내 최근 2주간 관찰상, Claude Code는 성능도 많이 떨어졌고 사용량 할당도 급감함에 따라, 오히려 OpenAI Codex는 성능도 올라가고 할당량도 훨씬 넉넉해진 느낌임
한 달 이상 안 써본 사람이 있다면, Codex CLI 다시 한 번 테스트해볼 것을 추천함
- 최종 사용자의 관점에선 "언제든 탈출 가능한 것"이 가장 중요하다고 봄
  서비스를 계속 비교하고 가격/성능비가 가장 좋은 것을 골라야 함
  지난 1년간 여러 회사가 다양한 장단점으로 경쟁했지만, 특별히 혁신적인 서비스는 없었음
  특정 서비스에 고집할 이유가 없고, SaaS 업체들만이 사용자를 붙잡으려 노력하고 있음
- Codex CLI가 프로젝트에 git이 있으면 무조건 "YOLO(일단 다 해보는)" 스타일로 행동하던 버릇이 남아 있는지 궁금함
  코딩 보조 툴에 필수로 바라는 점은

명령어 실행 허용 목록(화이트리스트) 제공
rm 같은 위험 명령은 매번 승인 필요
커스텀 슬래시 명령 지원
빌드 훅(hook)이나 서브에이전트 기능은 없어도 크게 상관없음

궁금한 점이 있는데, Codex CLI에서 Claude의 "normal mode"에 해당하는 모드를 어떻게 쓸 수 있는지 알고 싶음
Codex는 vibe coding이나 플랜 모드 중 하나만 지원하고, 중간에 "이 작업(a/b) 해도 되냐" 묻는 인터랙티브 모드는 없어 답답함
수정된 코드 편집을 복사붙여넣기할지, 자동으로 수용할지만을 선택해야 하는 이유를 이해하기 어려움
- 보통은 프롬프트에 "계획을 세우고, 내가 승인할 때까지 코딩하지 마라"라고 명시하는 방식을 씀
  그 다음 플랜의 루프를 여러 번 돌며 확인한 후 실행을 지시함
  가끔 LLM이 플랜을 "까먹는" 경우가 있어, 계획은 따로 복사해서 저장
  작업을 단계별로 내게 넘기거나, 빌드/유닛 테스트 등 각 이정표마다 검증도 병행함
매우 인상 깊게 느껴짐
"공유 프레즌스" 애니메이션(모든 사용자의 커서 위치에 따라 배경이 바뀌는 웹앱) 개발 중에 Claude와 Codex를 둘 다 사용해 실험했음
어제까지만 해도 두 모델 다 고전했으며, 그중 Claude가 살짝 더 앞섰음
무언가를 "창의적으로" 만들어야 하는 상황에서 두 모델 모두 결과물이 다소 상투적(stock)이고, 시뮬레이션 구현이 어려웠음
오늘 Codex로 같은 작업을 했을 때, 디자인 쪽은 여전히 밋밋했으나, 시뮬레이션 부분은 훨씬 더 성능이 괜찮았음
- LLM이 제작한 UI는 특별히 자세한 프롬프트(디자인/컬러스킴/선호 디자인 지시 등)가 없으면 항상 평범하고 상투적인 결과를 내놔서 그런 것임
  추가적인 UI 속성이나, "기존 앱 디자인을 참고해 맞춰달라"는 지시를 주면 결과가 훨씬 좋아짐
AI 코딩을 재도전해보고 싶어서 ChatGPT를 구독하고 Codex를 써봤는데, 속도가 너무 느리게 느껴짐
거의 텅 빈 저장소에서 단순 작업임에도 20분 동안 모델이 "생각"만 하고 있음
엔지니어가 기다리기만 하는 경험이라 실생산성에 의문이 듦
비동기 에이전트라면 여러 개를 병렬로 돌릴 수 있긴 하겠지만, 구조화된 코드베이스가 있어야 하고, 이미 몇 시간을 들였지만 스켈레톤도 못 만들고 있음
문서와 영상도 다 읽고 봤는데, 이 정도면 내 손으로 직접 만드는 게 훨씬 빠를 것 같음
내가 뭘 잘못하고 있는 건지, 단순히 서버 과부하 때문인지, 아니면 현존 AI 수준이 원래 이런지 궁금함
- 내가 본 다수의 엔지니어들은 병렬 돌리기를 주로 시도함
  에이전트 여러 개를 동시에 작업시키는 것에 익숙해지면 꽤 쓸만하다고 생각함
  관련된 기사를 예전에 읽었는데 지금은 찾기 힘듦
주말에 Codex를 처음 써봤는데 결과가 좀 이상했음
아주 단순한 예시(Rails 앱을 Docker Compose로 올리고 홈페이지/Devise 추가)를 요청했음에도, 실제 파일을 만드는 대신 bootstrap.sh 내부에 모든 파일 내용을 하드코딩해버리는 결과를 냄
앞으로 다른 방식으로 작동하는지 더 지켜보고 싶음
지난 달 chatgpt를 구매해 쓰고 있는데, OpenAI가 요즘엔 사용자 경험을 많이 개선하고 있다고 느낌
예를 들어, voice 모드가 Claude보다 훨씬 낫고, 모델 이름도 예전엔 헷갈렸는데 단순해져서 사용이 쉬워짐
일반 어시스턴트로도 Claude보다 성능이 더 나았고, OpenAI는 계속 새로운 툴을 출시하면서 신뢰도 면에서도 우위임

답변달기