GPT-5.3-Codex 공개

▲

GN⁺ 3달전 | parent | ★ favorite | on: GPT-5.3-Codex 공개(openai.com)

Hacker News 의견들

GPT‑5.3 Codex와 Opus 4.6이 철학적으로 다른 방향으로 발전하고 있음이 흥미로움
Codex는 인간이 중간에 개입하며 함께 작업하는 인터랙티브 협업자로 설계된 반면, Opus는 더 자율적이고 계획적인 시스템으로 인간의 개입을 최소화함
이는 실제 개발자들이 LLM 기반 코딩을 바라보는 두 가지 관점 — 인간 중심 제어 vs 완전 위임 — 을 반영하는 듯함
앞으로 모델들이 이런 철학적 분화를 따라 최적화될지, 혹은 새로운 접근들이 등장할지 궁금함
- UX 관점에서는 오히려 반대처럼 느껴짐
  Codex가 답을 주기 전에 훨씬 오래 생각하는 경향이 있음
- 나는 Codex 접근법이 지속될 것이라 확신함
  인간이 루프 안에 있으면 LLM의 문제를 대부분 피할 수 있고, 작은 코드 단위로 검토하는 방식이 효율적임
  Codex가 반복적인 작업을 처리해주면 개발자는 핵심 로직에 집중할 수 있음
  완전 자율형 접근은 코드 품질이 장기적으로 떨어지므로 대규모 코드베이스에는 부적합함
- 실제로는 Codex가 처음엔 웹앱 형태로 나와 상호작용이 거의 없었음
  요청을 던지고 컨테이너 환경에서 자동 실행되며, 이후 채팅으로만 후속 조치가 가능했음
- 두 모델이 서로의 영역으로 수렴하는 느낌임
  Codex는 점점 더 자율적이 되고, Opus는 협업적이 되어가는 듯함
  결국 상황에 따라 두 접근 모두 유용하게 쓰일 가능성이 큼
- Codex가 Opus보다 더 많이 사고하는 모델로 느껴짐
  그래서 5.2 버전이 Opus 4.5보다 더 안정적이었음
Anthropic이 GPT‑5.3‑Codex와의 비교를 피하려고 서둘러 Opus 4.6을 공개한 듯함
Terminal‑Bench 2.0 점수는 Opus 4.6이 65.4, GPT‑5.3‑Codex가 77.3임
- AI 벤치마크는 실제 경험과 잘 맞지 않음
  그래도 Codex 5.2는 복잡한 작업에서 가장 뛰어났고, 5.3을 기대 중임
- 같은 날 두 개의 최상위 코딩 모델이 공개된 게 놀라움
- 테스트가 xhigh reasoning 모드에서 진행되어 비용이 두 배였음
  GPT‑5.2 Codex는 $3244, Claude Opus 4.5는 $1485 수준
- Codex가 Terminal Bench에 오버핏된 것 같음
  ARC AGI 2 결과를 보면 일반화는 부족해 보임
- 내 경험상 GPT 계열이 Claude보다 에이전트형 코딩에 훨씬 강했음
  Claude가 코딩에서 우위라는 주장에는 의문이 있음
GPT‑5.3‑Codex가 자기 자신을 개발에 활용한 첫 모델이라는 점이 인상적임
Codex 팀이 초기 버전으로 자체 학습 파이프라인을 디버깅했다고 함
Claude Code가 성장한 이유도 이런 dogfooding 문화 덕분이라 생각함
- AI‑2027 프로젝트의 연구자들이 예측한 방향과 크게 다르지 않음
- 모델이 자기 개선의 초기 단계에 들어선 것 같음
  이제 ‘점진적 발전(soft take‑off)’이 가능할지 다시 생각하게 됨
GPT‑5.3‑Codex가 사이버보안 관련 작업에서 고성능(high capability) 모델로 분류됨
취약점 탐지를 직접 학습했지만, 완전한 공격 자동화는 아직 증거가 없음
다만 보안 프레임워크는 구식이라 생각함
앞으로는 Codex가 작성한 코드 자체가 보안 위협의 새로운 공격 표면이 될 가능성이 큼
Codex는 기본적으로 안전한 코드를 생성하도록 설계되어야 함
- “high‑capability”가 박사급 전문가 팀보다 강한 주장인지 궁금함
  관련 기사: NBC News 보도
- OpenAI가 또다시 AGI에 근접했다는 인상을 주려는 전형적인 전략 같음
  Anthropic과 마찬가지로 ‘안전 연구’라는 포장 아래 기술력을 과시하는 느낌임
- 요즘 vibe‑coded 프로젝트들이 API 키를 웹페이지에 그대로 노출한다는 농담이 있음
  이런 실수가 계속될지 궁금함
- “보안 강화”라더니 결국 ACL 추가와 정규식 업데이트 수준일지도 모름
예전엔 AI 연구소들이 동시 발표를 피하려고 조율했는데,
이제는 30분 간격으로 경쟁적으로 발표함
- 이제 완전히 치열한 경쟁 구도로 바뀌었음
  Demis는 정치 싸움엔 약하지만 성능으로 승부할 듯
  Elon, Sam, Dario는 이미 정치적 수 싸움에 능함
  2026년은 AI 업계의 드라마틱한 해가 될 것 같음
- 중국 춘절 시기에 맞춰 로컬 모델들과 경쟁하려는 일정 조정도 있음
- 이런 경쟁은 GPT‑4 시절부터 이어져 왔음
  OpenAI의 10시 발표에 맞춰 Anthropic과 Google이 맞불 런칭을 했었음
- 이런 조율이 카르텔 행위로 불법일 수도 있지 않을까 하는 의문이 있음
GPT‑5.3‑Codex가 웹게임을 자율적으로 개선했다는 발표를 보고 흥미로웠음
하지만 비교 실험의 프롬프트 수나 토큰 수가 공개되지 않아 아쉬움
예전에 내가 만든 Factorio 웹 클론과 비교해보고 싶음
- 그 데모가 정말 멋짐
  이런 식으로 모델을 활용하는 줄 몰랐음
몇 년째 “AI로 생산성 100배 향상”이라는 말을 듣고 있음
그런데 실제로 LLM이 주도적으로 만든, 새롭고 신뢰할 만한 프로그램이 있는지 궁금함
- 1930년대 계산기 도입 때도 회계직이 사라질 거라 했지만 오히려 전문화되었음
  LLM도 기존 문제 해결을 더 빠르게 만들어줄 뿐, 완전히 새로운 문제를 푸는 건 아님
  예를 들어 UI 카드 배열 문제에서 Gemini가 극좌표 기반 접근법을 제안해줘서 큰 도움을 받았음
  100배는 아니어도 2배의 생산성 향상은 체감함
  관련 스레드: vibe coding 사례
- 대부분의 개발자는 새로운 문제보다 기존 문제를 반복 해결함
  그래서 “이미 해결된 문제”라는 비판은 큰 의미가 없음
- 오픈소스로 공개된 대형 게임 프로젝트(OpenGTA, OpenFIFA 등) 가 나오면 좋겠음
- Opus 4.5가 단순한 git 문제를 다섯 번 시도 끝에 해결했는데,
  세 번이나 존재하지 않는 플래그를 환각했음
  ChatGPT 5.2도 ffmpeg 스크립트를 만드는 데 여러 번 수정이 필요했음
  윈도우에서 줄바꿈을 제대로 처리하는 날이 오면 그게 AGI일지도 모름
- 인간이 쓴 프로그램 중 LLM이 절대 못 쓰는 게 있을까?
  단지 코드베이스가 크다는 이유는 일시적 한계일 뿐임
  진보를 싫어하는 사람들의 불평처럼 들림
Terminal Bench 2.0 결과

모델 점수

OpenAI Codex 5.3 77.3

Anthropic Opus 4.6 65.4
- 이제 벤치마크 경쟁(benchmaxxing) 은 의미가 줄어든 듯함
  점수보다 실제 코딩 경험의 ‘감각’이 더 중요함
- 벤치마크보다 현실 성능이 훨씬 실망스러움
개발자들이 이 변화에 위협을 느끼는지 궁금함
나는 솔직히 그렇다고 느낌
- AI는 추상화 능력이 부족함
  경쟁 프로그래머라면 위협이겠지만 일반 개발자는 덜함
- AI를 잘 활용하는 법을 배우지 않았다면 위협을 느낄 만함
- 아직은 사람이 직접 코드를 검토해야 함
  AGI가 오기 전까지는 완전 자동화는 불가능하다고 생각함
- Jevons의 역설처럼, 효율이 높아져도 일자리는 사라지지 않을 수도 있음
주변에서는 Claude 사용자가 Codex보다 훨씬 많음
하지만 Codex는 사용 한도와 요금제 측면에서 훨씬 관대함
몇 달간 $20 플랜으로 써도 한도에 거의 도달하지 않음
이런 실용적 차이가 코딩 품질보다 더 중요하다고 느낌
- 최근 CLI 기반 터미널 에이전트로 전환했는데 Codex가 훨씬 나았음
  예전엔 GH Copilot에서 Claude가 더 좋았지만,
  Codex는 자율성이 높아 vibe‑coding에 더 적합하고
  트위터·링크드인 등에서의 홍보 효과로 사용자층이 커진 듯함
- 나도 Codex의 요금제 혜택이 더 크다고 느낌
  품질 차이를 모르겠다면 당연히 저렴한 쪽을 선택함
- 하루 종일 멀티에이전트 세션을 돌려도 한도에 거의 안 걸림
  플랜 전환도 자유로워서 사용 경험이 매우 만족스러움

모델	점수
OpenAI Codex 5.3	77.3
Anthropic Opus 4.6	65.4