# GPT‑5.3‑Codex‑Spark 출시

> Clean Markdown view of GeekNews topic #26642. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26642](https://news.hada.io/topic?id=26642)
- GeekNews Markdown: [https://news.hada.io/topic/26642.md](https://news.hada.io/topic/26642.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-13T09:32:34+09:00
- Updated: 2026-02-13T09:32:34+09:00
- Original source: [openai.com](https://openai.com/index/introducing-gpt-5-3-codex-spark/)
- Points: 3
- Comments: 1

## Topic Body

- **실시간 코딩**을 위해 설계된 GPT‑5.3‑Codex의 소형 버전으로, **1000토큰/초 이상**의 속도를 제공  
- 128k 컨텍스트 윈도우 기반의 **텍스트 전용 모델**로, 즉각적인 코드 수정과 반복 작업에 특화됨  
- WebSocket 기반 응답 경로 도입으로 **응답 지연 80% 감소**, **토큰당 오버헤드 30% 감소**, **첫 토큰 출력 시간 50% 단축**   
- **Cerebras**와의 협력으로 개발되어, **Wafer Scale Engine 3**을 활용한 고속 추론 환경에서 작동  
- **장기 자율 작업과 실시간 협업을 결합**하는 **이중 모드 Codex 전략**의 첫 단계 모델  
  
---  
  
### GPT‑5.3‑Codex‑Spark 개요  
- GPT‑5.3‑Codex‑Spark는 **GPT‑5.3‑Codex의 소형 버전**으로, **실시간 코딩 작업**을 위해 설계된 첫 모델임  
  - 초저지연 하드웨어에서 **1000토큰/초 이상**의 생성 속도를 달성  
  - 실제 코딩 작업에서 즉각적인 반응성을 제공  
- **Cerebras와의 협력**을 통해 개발된 첫 모델로, OpenAI와 Cerebras의 파트너십의 **첫 마일스톤**  
- **ChatGPT Pro 사용자**에게 연구 프리뷰로 제공되어, 초기 실험과 피드백 수집을 목표로 함  
  
### 주요 기능 및 성능  
- **128k 컨텍스트 윈도우**를 지원하며, 현재는 **텍스트 전용 모델**로 제공  
- **SWE‑Bench Pro**와 **Terminal‑Bench 2.0** 벤치마크에서 GPT‑5.3‑Codex 대비 **더 짧은 시간에 높은 성능**을 보임  
- **속도 중심 최적화**로, 기본 작업 방식은 가볍고 목표 지향적이며, 요청하지 않으면 자동 테스트를 실행하지 않음  
- **실시간 협업**이 가능해, 사용자가 모델의 진행을 **중단·재지시**하며 즉각적인 결과를 확인할 수 있음  
  
### 지연 시간 및 인프라 최적화  
- 모델 속도 외에도 **요청-응답 전체 파이프라인의 지연 시간**을 줄이기 위한 개선이 이루어짐  
  - **클라이언트-서버 간 왕복 오버헤드 80% 감소**  
  - **토큰당 오버헤드 30% 감소**, **첫 토큰 출력 시간 50% 단축**  
- 이를 위해 **WebSocket 기반 지속 연결**과 **Responses API 내부 최적화**가 적용됨  
- 이러한 개선은 Codex‑Spark뿐 아니라 **모든 모델에 적용될 예정**임  
  
### Cerebras 하드웨어 통합  
- Codex‑Spark는 **Cerebras Wafer Scale Engine 3** 위에서 실행되어, **지연 시간 중심의 추론 계층**을 제공  
- OpenAI는 Cerebras와 협력해 이 경로를 **기존 프로덕션 서빙 스택에 통합**, Codex 전반에서 **일관된 작동 환경**을 구현  
- **GPU 인프라**는 여전히 학습과 추론의 기반으로 유지되며, **Cerebras는 초저지연 워크로드**에 특화되어 상호 보완적 역할 수행  
- GPU와 Cerebras를 **단일 워크로드에서 결합**해 최적의 성능을 달성 가능  
  
### 배포 및 접근  
- Codex‑Spark는 **ChatGPT Pro 사용자용 Codex 앱, CLI, VS Code 확장판**에서 연구 프리뷰로 제공 시작  
- **전용 사용 제한(rate limit)** 이 적용되며, 수요에 따라 조정될 수 있음  
- **일부 디자인 파트너**에게 API 접근이 제공되어, 제품 통합 방식에 대한 피드백을 수집 중  
- 향후 몇 주간 **접근 범위를 확대**하며 실제 워크로드 기반으로 통합을 조정할 예정  
  
### 안전성 및 향후 방향  
- Codex‑Spark는 **기존 메인라인 모델과 동일한 안전성 학습**을 포함하며, **사이버 관련 평가**를 통과함  
- 평가 결과, **사이버보안·생물학 영역에서 고위험 역량 기준에 도달하지 않음**이 확인됨  
- Codex는 장기 실행형 추론과 **실시간 협업형 반복 작업**이라는 두 가지 모드를 결합하는 방향으로 발전 중  
  - 향후에는 **멀티모달 입력**, **더 큰 모델**, **긴 컨텍스트** 등 기능 확장 예정  
- 초고속 추론은 **아이디어를 즉시 실행 가능한 소프트웨어로 전환**하는 과정을 가속화하며, **자연스러운 상호작용 경험**을 제공함

## Comments


### Comment 51091

- Author: neo
- Created: 2026-02-13T09:32:34+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46992553) 
- HN에 이미지를 올릴 수 있으면 좋겠음. **WSE-3 칩**이 정말 거대함  
  이 칩은 46,255mm² 크기에 4조 개의 트랜지스터를 포함하고, 90만 개의 AI 최적화 코어로 125 페타플롭스의 연산을 제공함. 이는 **NVIDIA B200**보다 트랜지스터는 19배, 연산력은 28배 많음  
  자세한 내용은 [Cerebras 공식 페이지](https://www.cerebras.ai/chip)와 [이미지1](https://cdn.sanity.io/images/e4qjo92p/production/78c94c67be9b480e9e4e39b7c26e8b11da167325-4096x2160.png?auto=format&dpr=2&fit=crop&fp-x=0.5&fp-y=0.5&h=1400&q=75&w=1400), [이미지2](https://cdn.sanity.io/images/e4qjo92p/production/f552d23b565912e206698908c746f5454f9516e8-1070x877.png?auto=format&dpr=2&fit=max&q=75&w=1070) 참고  
  - 발열이 엄청날 것 같아서 **냉각 시스템**이 중요할 듯함. 재생에너지로 전력 공급받길 바람  

- 나는 코딩 에이전트를 이용해 웹 기반 슬라이드 덱을 자동 생성함. “마스터 슬라이드”를 컴포넌트로 정의하고, 회사 브랜딩 규칙과 자산을 적용함. 여기에 콘텐츠와 프롬프트만 넣으면 깔끔한 프레젠테이션이 만들어짐  
  진짜 원하는 건 **즉흥 모드(improv mode)** 임. 발표 중 청중 질문이나 즉석 아이디어에 따라 다음 슬라이드 후보 3개를 제안받고, 선택 후 다시 본 흐름으로 복귀하는 식임.  
  예를 들어 뉴스 기사나 논문을 언급하면 자동으로 스크린샷과 QR코드가 포함된 슬라이드를 생성하고, 발표 흐름으로 돌아가는 식임. 실시간 음성 + 코드 생성이 결합되면 발표 도구가 훨씬 유용해질 것 같음  
  - 이런 **확률적 프레젠테이션**이 멋지다고 생각함. 결과가 놀라울 수도, 웃길 수도 있음  
  - 우리가 **Octigen**에서 거의 같은 걸 만들고 있음. [데모](https://octigen.com)나 알파 버전 접근권을 줄 수 있음  
  - 해커톤에서 비슷한 걸 만든 적 있음. 발표자의 **톤과 말속도**에 따라 텔레프롬프터 속도를 조절하는 시스템이었음. 이걸 즉흥 모드로 확장하면 정말 흥미로울 듯함  
  - 강의 준비에 시간을 너무 많이 쓰는 교수로서, 이런 시스템을 수업에 도입해보고 싶음  
  - 실제 예시를 보여줄 수 있는지 궁금함  

- **gpt-5.3-codex-spark**를 Codex CLI에서 써봤는데, 속도는 **엄청 빠르지만 모델 크기가 작다는 느낌**이 있음.  
  내가 만든 ‘bluey bench’ 테스트(파일 시스템 벤치마크)에서 성능을 측정했는데, 작은 모델일수록 문맥 효율이 떨어지고 자주 압축(compaction)이 발생함.  
  그래도 속도 면에서는 이전 세대보다 훨씬 빠름  
  - 앞으로 모든 모델의 표준 벤치마크를 **bluey bench**로 삼았으면 함  
  - Opus 4.6(생각 기능 비활성화)과 비교해봤는지 궁금함. 그 모델도 꽤 빠름  
  - 이름이 기존 Codex와 비슷한데 성능은 훨씬 낮은 게 의아함  

- **Cerebras**는 여전히 과소평가된 회사라고 생각함. 접시만 한 크기의 칩이 실제로 작동하고, 실사용에서도 다른 어떤 것보다 빠름. 놀라운 기술임  
  - 이제 **Nvidia의 시대가 끝난 것 같음**. Google은 TPUv9으로 추론 효율을 4배 높일 예정이고, Cerebras는 에이전트 워크로드에서 훨씬 빠름. 전력 효율과 비용 면에서도 Google이 우위임.  
    전력 인프라가 병목이라, 미국에서는 대규모 발전소를 단기간에 지을 수 없음. 결국 TPUv8 이후에는 Google이 시장을 주도할 것 같음  
  - 사실 이 칩이 ‘접시 크기’인 이유는 **웨이퍼 전체를 하나의 칩으로 쓰기 때문**임. 웨이퍼 스케일 통합은 수십 년간 연구된 기술임  
  - 단점은 **가격이 너무 비쌈**  
  - 그래도 투자자들은 여전히 Nvidia에 돈을 넣고 있음  
  - 하지만 이 칩은 1개당 100만 달러 이상이고, 랙에 1개밖에 못 넣음. **밀도와 메모리 용량**이 부족함. 결국 Nvidia가 Groq 인수에 200억 달러를 썼으니, Cerebras는 인수될 가능성도 낮음  

- 내 **Pelican 벤치마크**가 GPT-5.3-Codex-Spark와 전체 GPT-5.3-Codex의 품질 차이를 시각적으로 보여줌  
  자세한 내용은 [블로그 포스트](https://simonwillison.net/2026/Feb/12/codex-spark/) 참고  
  - 새 모델이 나올 때마다 이런 벤치마크를 기다림. 여러 요소를 한 번에 보여줘서 유용함. 블로그도 최고임  

- 코딩 에이전트를 이용한 **우선순위 큐 / 티어드 워크로드 오프로드** 아이디어가 흥미로움.  
  작업의 60%가 단순 편집이나 리팩터링이라면, **저지연·고토큰 처리**가 중요함.  
  최근 Claude용 [Batch API 플러그인](https://github.com/s2-streamstore/claude-batch-toolkit/blob/main/README.md)이 나왔고, Nvidia와 Google도 추론용 커스텀 실리콘을 준비 중임 ([기사](https://www.tomshardware.com/tech-industry/semiconductors/nvidia-confirms-20-billion-groq-deal-to-bolster-ai-inference-dominance))  
  - 다만 Batch API는 **지연 시간이 훨씬 길음**. 대량 작업에는 좋지만, 한 번의 왕복에 최대 24시간 걸릴 수도 있음. 게다가 Codex나 Pro 모델은 Batch API에서 지원되지 않음  
  - 나는 Claude가 **GLM 4.7 on Cerebras**에 개발을 외주처럼 맡길 수 있는 MCP를 만들었음. Claude가 시스템 프롬프트, 출력 파일, 문맥 파일을 지정할 수 있게 했고, 개발 속도가 크게 향상됨  

- 이제 업계 표준이 된 지 **20분밖에 안 됐는데**, 아직도 GPT-5.3-Codex를 쓰는 사람이 있다니 놀라움  
  - 나도 제목을 보고 “GPT 발표라면 Google이나 Anthropic도 뭔가 냈겠네” 했는데, 역시 **Gemini**가 있었음  

- OpenAI가 **Openrouter에서 Aurora Alpha**라는 이름으로 이걸 테스트 중일 가능성이 있음.  
  Aider로 작은 프로젝트를 돌려봤는데, 1만 입력 토큰과 1천 출력 토큰을 **초당 500토큰** 속도로 처리했음  

- “최신 모델은 수 시간~수일 동안 자율적으로 작업을 수행할 수 있다”는 문구를 봤는데, 아직 실제로 **유용한 결과물**은 못 봤음  
  - 얼마나 시도해봤는지 묻고 싶음. **Opus 4.6**이나 **GPT-5.3**은 장기 작업에서 확실히 개선됨. 예를 들어 [이 프로젝트](https://github.com/simonw/research/tree/main/cysqlite-wasm-wheel)와 [데모 페이지](https://simonw.github.io/research/cysqlite-wasm-wheel/demo.html)는 단 한 번의 프롬프트로 완성했음 ([프롬프트 링크](https://github.com/simonw/research/pull/79))  
  - 나는 종종 Codex를 밤새 돌려서 버그를 찾게 함. **디버깅 자동화**에는 정말 이상적임  
  - 모델이 멈추지 않고 **토큰을 계속 태우는 능력**이 인상적임  
  - “우리 모델은 너무 느려서 작업이 몇 시간 걸립니다”라는 문구가 웃김. 그게 자랑은 아닌 듯함  
  - 며칠 전 Codex가 내 회사 사이트의 **Vite 8 업그레이드**를 3시간 넘게 혼자 처리했음. 지금은 실제 프로덕션에 반영됨  

- 드디어 **대형 3사 중 하나가 Cerebras를 사용**하는 걸 보게 됨. 이 날을 오래 기다렸음  
  - 처음엔 검증되지 않은 기술이라 꺼렸지만, 이제 **속도 면에서 큰 도약**을 이룬 듯함