OpenAI, 클라우드 기반 코드 에이전트 Codex 리서치 프리뷰 출시

(openai.com)

8P by GN⁺ 3달전 | ★ favorite | 댓글 2개

OpenAI는 소프트웨어 엔지니어링 전용 에이전트 Codex를 출시하여 반복 작업, 코드 작성, PR 제안 등을 자동화할 수 있게 함
Codex는 분리된 클라우드 샌드박스 환경에서 작업을 수행하며, 테스트와 로깅을 통해 결과를 투명하게 검증 가능함
AGENTS.md 파일을 통해 프로젝트별 관행과 테스트 방식을 Codex에 명시할 수 있으며, 사용자 코드베이스에 최적화 가능함
CLI 버전 Codex CLI도 함께 제공되어 로컬 개발 환경에서도 에이전트 활용 가능함
초기 배포는 ChatGPT Pro·Team·Enterprise에 제공되며, 추후 Plus 및 Edu 사용자에게도 확장 예정임

Introducing Codex

Codex란?

Codex는 클라우드에서 실행되는 소프트웨어 엔지니어링 에이전트로, 사용자의 코드베이스를 읽고 다양한 작업을 자동으로 처리할 수 있음
코드 기능 추가, 질문 응답, 버그 수정, PR 제안 등을 병렬로 수행 가능
각 작업은 분리된 샌드박스 환경에서 독립적으로 실행되며, 사용자 레포지토리가 사전 로드되어 있음

작동 방식

ChatGPT 사이드바에서 Codex 기능을 통해 “Code” 또는 “Ask” 명령으로 작업을 시작
파일을 읽고 수정하며 테스트, 린터, 타입체커 등 명령 실행 가능
작업은 보통 1~30분 내 완료되며, 실시간 진행 상황 확인 가능
Codex는 작업 후 커밋을 생성하고, 터미널 로그 및 테스트 출력을 인용해 변경사항을 투명하게 설명함
결과를 검토한 뒤 GitHub PR 생성 또는 직접 통합 가능

AGENTS.md 파일

프로젝트 내에 위치한 AGENTS.md는 Codex가 코드베이스를 탐색하고 테스트하는 방법을 안내함
README와 유사한 형식의 문서로, 코드 스타일, 실행 명령, PR 메시지 형식 등을 포함 가능
깊이 있는 디렉터리에 있는 파일이 우선시되며, 명시된 테스트를 모두 실행해야 함
Codex는 명시적 프롬프트가 AGENTS.md보다 우선이라는 규칙도 따름

내부 벤치마크 성능

OpenAI 내부 SWE 벤치마크에서 codex-1은 최대 192k 토큰, 중간 난이도 설정에서 우수한 정확도 달성
AGENTS.md 없이도 높은 성능을 보이며, 사람이 작성한 코드 스타일에 밀접하게 일치하는 결과 생성 가능

보안 및 신뢰성

Codex는 투명성 강화 및 보안 중심으로 설계되었으며, 출력 검증 가능
작업 중 인터넷 연결은 차단되며, 지정된 레포지토리 및 의존성만 접근 가능
악성 코드 개발 차단, 커널 수준의 정당한 작업은 허용하도록 구분 학습 수행

초기 활용 사례

OpenAI 내부에서는 반복적인 리팩토링, 테스트 작성, 문서화 등에 활용 중
외부 파트너 예시:
- Cisco: 실제 제품 전반에서 적용 테스트 및 피드백 제공
- Temporal: 대규모 코드베이스의 디버깅, 테스트 실행, 리팩토링에 사용
- Superhuman: QA 및 통합 실패 수정, PM의 경량 코드 변경 가능하게 지원
- Kodiak: 자율 주행 기술 코드 분석 및 도구 개발 지원

Codex CLI 업데이트

Codex CLI는 터미널 기반의 경량 코딩 에이전트로, 로컬에서 o3, o4-mini 모델과 함께 작업 가능
이번 업데이트로 o4-mini 기반의 codex-mini 모델 출시, CLI 최적화 및 저지연 응답 제공
ChatGPT 계정으로 로그인하면 API 키 자동 설정, Plus/Pro 사용자에게 무료 크레딧 제공

가격 및 제공 범위

Codex는 현재 Pro, Enterprise, Team 사용자에게 제공 중이며, Plus 및 Edu는 곧 확장 예정
초기에는 추가 비용 없이 사용 가능, 추후에는 사용량 기반 가격 정책 도입
codex-mini-latest는 1M 입력 토큰당 $1.50, 출력 토큰당 $6, 75% 프롬프트 캐시 할인 적용

향후 계획

Codex는 장기적으로 비동기적 협업 에이전트로 발전 예정
Codex CLI, ChatGPT Desktop, 이슈 트래커, CI 도구와의 더 깊은 통합 계획
중간 피드백, 구현 전략 논의, 능동적 진행 상황 보고 기능이 추가될 예정
개발자들이 AI를 통해 더 빠르고 집중된 코딩이 가능해질 미래를 기대하고 있음

부록: codex-1 시스템 메시지 요약

작업 전후 Git 상태를 확인하고, 반드시 커밋 완료 상태로 유지
AGENTS.md 파일 내 검증 절차는 단순 변경이라도 모두 실행 필요
PR 생성 시 파일/터미널 기반 인용 규칙 존재 (예: 【F:main.py†L12】)
이전 PR 또는 코멘트 내용은 인용 금지, 오직 파일과 터미널 결과만 사용

이 시스템 메시지는 Codex 사용자 정의를 위해 모델 기본 행동을 이해하는 데 활용됨.

▲

fortune 3달전 [-]

드디어 cursor, cline 등의 세대와 구분될 수 있는 다음 세대 agent가 나왔네요. 세상의 Sw 변화 속도가 얼마나 더 빨라질지 기대가 됩니다. 이 다음 세대의 agent의 등장도요.

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

우리 팀의 몇몇 엔지니어들과 함께 Assembled에서 Codex 알파 테스트에 참여 경험 공유, 기존에 Cursor와 Claude Code 같은 로컬 에이전트를 오래 사용했기에 큰 기대는 없었지만 Codex의 병렬 작업 실행 능력이 인상적이라는 평가, 여러 개의 리팩터·테스트·보일러플레이트 작업을 한 번에 묶어 컨텍스트 전환 없이 동시에 실행 가능, 기존 솔루션들은 이게 어려웠는데 Codex는 파일이나 함수에 작업을 지정하면 대부분의 PR 스캐폴딩을 자동으로 알아서 처리해 주는 무한한 주니어 엔지니어가 생긴 느낌, 다만 실제로 프로덕션에 넣기까지는 여전히 많은 후처리가 필요, 모델 품질은 괜찮지만 Cursor, Gemini 2.5-pro 등과 나란히 평가했을 때 스타일이나 로직, 네이밍의 명확한 우위는 없는 상태로 기대치를 ‘충족’하는 선이라는 소감
- 만약 이런 종류의 일을 할 주니어 엔지니어를 고용하지 않는다면 미래의 시니어 엔지니어는 어디서 나오겠느냐는 문제 제기, 최근 딸아이가 좋은 대학에서 컴퓨터공학을 졸업했는데 신입 개발자 자리보다 시니어 엔지니어 수요가 훨씬 많다는 취업 시장 현실 이야기, 최근 회사에서 신입 포지션 채용 공고를 내자 엄청난 지원서가 몰려 공정한 평가 자체가 어려웠다는 소회, 결국 취업에 성공한 아이 친구들은 대부분 인맥 덕분임
- 지금은 수백만 명의 엔지니어가 Github 오픈소스에 기여하고, 뛰어난 인재들이 그 코드를 이용해 AI 모델을 개발하고 다시 그 엔지니어들을 대체하는 흥미로운 순환 구조, 오픈소스 기여가 많아질수록 관련 직무 대체도 쉬워진다는 본질적 딜레마 언급, 시간이 갈수록 오픈소스 기여의 동기 부여가 약해지는 것 아닌지 질문, 우리가 창의적인 일 한다고 생각했지만 실제론 반복적이고 예측 가능한 지식 조합에 대부분 시간을 쓰며, AI가 이런 종류의 일을 잘 대체한다는 자각, optimistic한 전망으론 장기적으로는 더 흥미로운 일을 만들어가야 하지만 당장 가까운 미래에는 소프트웨어 엔지니어의 공급 과잉·수요 부족으로 수년간 큰 고통 예상
- Codex의 병렬 작업 실행 기능이 왜 중요한가에 대한 의문 제기, 실제로 LLM이 코드 작성하는 건 몇 초면 끝나고 진짜 시간이 드는 부분은 작업 명세와 검토/수정 단계임, 가장 빠른 부분을 병렬화해서 얻는 효용이 무엇인지 궁금증 표출
- 주니어 개발자가 완전 자율성이 없다보니 결국 이들을 관리·코드리뷰 하는데 상당한 시간 소모, 막상 주니어를 많이 둬도 그 관리 비용이 병목이 되기 쉬운데, Codex 같은 가상 개발자들을 많이 다루는 게 버거워지진 않는지, 아니면 자율성이 높은지 사용 경험 궁금증
- Cursor와 Claude Code를 오래 써온 입장에서, Claude Code의 장점과 한계, Codex와 비교했을 때 병렬 작업 실행이 실제로 큰 차이였는지, 최근 나온 Codex CLI도 기대 이하였기에 팀의 Claude Code 사용 경험과 통찰 기대
OpenAI의 Codex 프리뷰 영상에서 Katy Shi가 “엔지니어링 일이 코드 작성보단 코드 리뷰 쪽으로 이동”했다는 의견에 공감, AI가 본격 도입되는 시대에 개발자는 여전히 코드와 테스트를 읽는데 머물러 있음을 관찰, 시뮬레이션이라는 비교적 새로운 개념이 도입된다면 특히 프론트엔드에서 코드/테스트만 보는 것보다 다양한 결과 예측이 가능할 것, 최근 이 부분을 주제로 직접 탐구 중이고 Codex 런칭 자료를 보며 실감
- 나의 Graphite 관련 논지와도 비슷함, 코드의 대량 AI 생성 시대가 오면 검토·테스트·통합이 핵심이 되고, AI 코드 리뷰 시스템도 만들고 있지만 인간 리뷰의 영구적 필요성, 근본적으로 책임 소재 때문임, 컴퓨터는 절대 책임을 질 수 없는 존재임
- “시뮬레이션을 본다”는 말이 자동화된 테스트 슈트의 활용을 뜻하는지 질문
SWE-bench 공동 제작자로서, 이미 강력한 o3 결과에서도 Codex가 소폭 개선을 보여 흥미, Verified 기준 75%에서 85%로 올리는 게 20%에서 75%로 올렸을 때만큼의 긴 시간이 필요할지 궁금증
- swe-bench 관련 벤치마크 과다 최적화 현상이 있다고 생각, multi-swe-bench, swe polybench, kotlin bench 등 다양한 측정 결과 공유
- 20%에서 75%까지 도달하는 데 걸린 시간 궁금증 제기
Pro 버전 구독 중인데 Codex 체험하려고 할 때마다 팀 요금제 결제 페이지로 이동, 정식 오픈 전이거나 뭔가 놓치는 것인지 궁금, 오픈AI 제품 꾸준히 써오고 있고 Codex도 정말 써보고 싶음
- 주요 업데이트 때마다 비슷한 일 발생, 이해하기 어렵다는 반응
- 나도 비슷한 상황, 몇 분 전부터 가능하게 된 것 같으니 서비스 점진 출시 중이라는 판단
- 아직도 점진적으로 출시 중이라는 안내
라이브 스트림에서 "microVM" 언급, 브라우저/인터넷 접근 불가, Firecracker/Unikraft 등 마이크로커널 사용이 빠르고 저렴하게 대규모 확장 가능, 하지만 에이전트별 분리된 완전한 컴퓨터 환경으로 넘어가는 데 큰 기술적 장벽 예상, 현재 ChatGPT Operator는 브라우저 접근 지원하므로 기술적으로 가능하겠지만 수요 규모가 다를 것으로 판단, fork/snapshot/screen/human-in-the-loop 지원 등 AI전용 전체 PC 환경 제공 인프라 기업이 등장할 여력 충분, 현재 브라우저 활용 등 부분적 기능 구현에 머물러 있음
- E2B Desktop으로 이 기능 제공 중, 데모와 SDK 소개 링크 공유
은행 근무 시 법무팀이 앱에 사소한 변경 요청을 자주 해왔는데, 이제 스스로 수정 가능해질 듯, 법무팀이 매우 뿌듯해할 것으로 생각
- 코드 실행·테스트와 코드 리뷰 없이는 법무팀에 코드 변경 권한 주는 것은 위험, 결국 아무도 그럴 일 없을 것으로 예상
- 미래엔 버그트래킹이 확 바뀔 전망, 조직 내 누구나 이슈나 기능 요청을 남기면 모델이 자동 대응, 안 될 경우 사람 개입, 결국 ‘어떤 코드 변경이 합법적이고 회사 기준에 부합하는가’에 대한 판단과 리뷰는 점차 비기술적 검토자의 핵심 역할로 부상
- 현실적으로 법무팀이 코드 변경을 직접 하진 않을 것이라는 약속
프라이버시, 학습 데이터 opt-out, 그리고 플랫폼을 통해 만들 모델로 경쟁할 때 발생할 수 있는 리스크에 대한 우려, “네가 만든 산출물을 네가 경쟁에 쓰면 안 됩니다”라는 정책이 공정한지 의문, 혹시 지나치게 비관적인 시선인지도 모름, OpenAI가 우리가 만든 정보를 경쟁에 활용하지 못하게 막으려 할 때 문제 제기
- 동영상에서 레포에 대해 학습 허용 여부를 직접 선택하는 명시적 옵션이 있음을 안내
"secrets" 기능 사용 중 문제 경험, 환경 세팅에서는 잘 주입되지만 실제 작업에서 동작하지 않고, 환경 재설정 등의 방법에도 항상 재현되는 이슈 공유
Codex가 클라우드에서만 동작해 코드가 자동 커밋-푸시 되어버리면 내가 내부적으로 검토할 시간이 없는 걱정, aider에서는 커밋 후 git reset HEAD^, git diff로 변경점 직접 확인하고 필요한 수정을 한 뒤에야 커밋-푸시 하는 워크플로를 선호
- 어차피 커밋을 바로 롤백한다면 Aider에 --no-auto-commits 옵션 추천
- Codex를 쉽게 말하면 기존 Codex CLI의 매니지드 클라우드 버전, 핵심은 새 모델 자체이고 곧 API로도 제공 예상
- 라이브 스트림에서 작업 완료 후 diff가 바로 보여지고, diff 확인 뒤에만 github pr 생성 결정 가능한 구조임을 안내
회사가 코드베이스를 AI 공급업체에 공유하는 데 대해 어떻게 생각하는지 궁금, 아니면 로컬 설치로만 사용하는지 질문
- 기업들은 SaaS에 코드 공유가 매우 흔하며, 보통 별도 계약을 통해 임의 활용을 막음
- 대부분 기업의 코드는 자기 회사에만 의미 있는 가치라는 판단
- OpenAI 같은 곳이 굳이 내 코드를 보며 위험을 감수하진 않을 거라 생각, 법적 리스크 감수할 가치 없다 판단
- 결국 이 모든 것도 비용-편익 트레이드오프, 이득이 크면 충분히 공유 가치 있음
- Cursor에는 엔터프라이즈 모드에서 데이터 프라이버시 강제 기능이 있음

답변달기