1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • 실시간 코딩을 위해 설계된 GPT‑5.3‑Codex의 소형 버전으로, 1000토큰/초 이상의 속도를 제공
  • 128k 컨텍스트 윈도우 기반의 텍스트 전용 모델로, 즉각적인 코드 수정과 반복 작업에 특화됨
  • WebSocket 기반 응답 경로 도입으로 응답 지연 80% 감소, 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
  • Cerebras와의 협력으로 개발되어, Wafer Scale Engine 3을 활용한 고속 추론 환경에서 작동
  • 장기 자율 작업과 실시간 협업을 결합하는 이중 모드 Codex 전략의 첫 단계 모델

GPT‑5.3‑Codex‑Spark 개요

  • GPT‑5.3‑Codex‑Spark는 GPT‑5.3‑Codex의 소형 버전으로, 실시간 코딩 작업을 위해 설계된 첫 모델임
    • 초저지연 하드웨어에서 1000토큰/초 이상의 생성 속도를 달성
    • 실제 코딩 작업에서 즉각적인 반응성을 제공
  • Cerebras와의 협력을 통해 개발된 첫 모델로, OpenAI와 Cerebras의 파트너십의 첫 마일스톤
  • ChatGPT Pro 사용자에게 연구 프리뷰로 제공되어, 초기 실험과 피드백 수집을 목표로 함

주요 기능 및 성능

  • 128k 컨텍스트 윈도우를 지원하며, 현재는 텍스트 전용 모델로 제공
  • SWE‑Bench ProTerminal‑Bench 2.0 벤치마크에서 GPT‑5.3‑Codex 대비 더 짧은 시간에 높은 성능을 보임
  • 속도 중심 최적화로, 기본 작업 방식은 가볍고 목표 지향적이며, 요청하지 않으면 자동 테스트를 실행하지 않음
  • 실시간 협업이 가능해, 사용자가 모델의 진행을 중단·재지시하며 즉각적인 결과를 확인할 수 있음

지연 시간 및 인프라 최적화

  • 모델 속도 외에도 요청-응답 전체 파이프라인의 지연 시간을 줄이기 위한 개선이 이루어짐
    • 클라이언트-서버 간 왕복 오버헤드 80% 감소
    • 토큰당 오버헤드 30% 감소, 첫 토큰 출력 시간 50% 단축
  • 이를 위해 WebSocket 기반 지속 연결Responses API 내부 최적화가 적용됨
  • 이러한 개선은 Codex‑Spark뿐 아니라 모든 모델에 적용될 예정

Cerebras 하드웨어 통합

  • Codex‑Spark는 Cerebras Wafer Scale Engine 3 위에서 실행되어, 지연 시간 중심의 추론 계층을 제공
  • OpenAI는 Cerebras와 협력해 이 경로를 기존 프로덕션 서빙 스택에 통합, Codex 전반에서 일관된 작동 환경을 구현
  • GPU 인프라는 여전히 학습과 추론의 기반으로 유지되며, Cerebras는 초저지연 워크로드에 특화되어 상호 보완적 역할 수행
  • GPU와 Cerebras를 단일 워크로드에서 결합해 최적의 성능을 달성 가능

배포 및 접근

  • Codex‑Spark는 ChatGPT Pro 사용자용 Codex 앱, CLI, VS Code 확장판에서 연구 프리뷰로 제공 시작
  • 전용 사용 제한(rate limit) 이 적용되며, 수요에 따라 조정될 수 있음
  • 일부 디자인 파트너에게 API 접근이 제공되어, 제품 통합 방식에 대한 피드백을 수집 중
  • 향후 몇 주간 접근 범위를 확대하며 실제 워크로드 기반으로 통합을 조정할 예정

안전성 및 향후 방향

  • Codex‑Spark는 기존 메인라인 모델과 동일한 안전성 학습을 포함하며, 사이버 관련 평가를 통과함
  • 평가 결과, 사이버보안·생물학 영역에서 고위험 역량 기준에 도달하지 않음이 확인됨
  • Codex는 장기 실행형 추론과 실시간 협업형 반복 작업이라는 두 가지 모드를 결합하는 방향으로 발전 중
    • 향후에는 멀티모달 입력, 더 큰 모델, 긴 컨텍스트 등 기능 확장 예정
  • 초고속 추론은 아이디어를 즉시 실행 가능한 소프트웨어로 전환하는 과정을 가속화하며, 자연스러운 상호작용 경험을 제공함
Hacker News 의견들
  • HN에 이미지를 올릴 수 있으면 좋겠음. WSE-3 칩이 정말 거대함
    이 칩은 46,255mm² 크기에 4조 개의 트랜지스터를 포함하고, 90만 개의 AI 최적화 코어로 125 페타플롭스의 연산을 제공함. 이는 NVIDIA B200보다 트랜지스터는 19배, 연산력은 28배 많음
    자세한 내용은 Cerebras 공식 페이지이미지1, 이미지2 참고

    • 발열이 엄청날 것 같아서 냉각 시스템이 중요할 듯함. 재생에너지로 전력 공급받길 바람
  • 나는 코딩 에이전트를 이용해 웹 기반 슬라이드 덱을 자동 생성함. “마스터 슬라이드”를 컴포넌트로 정의하고, 회사 브랜딩 규칙과 자산을 적용함. 여기에 콘텐츠와 프롬프트만 넣으면 깔끔한 프레젠테이션이 만들어짐
    진짜 원하는 건 즉흥 모드(improv mode) 임. 발표 중 청중 질문이나 즉석 아이디어에 따라 다음 슬라이드 후보 3개를 제안받고, 선택 후 다시 본 흐름으로 복귀하는 식임.
    예를 들어 뉴스 기사나 논문을 언급하면 자동으로 스크린샷과 QR코드가 포함된 슬라이드를 생성하고, 발표 흐름으로 돌아가는 식임. 실시간 음성 + 코드 생성이 결합되면 발표 도구가 훨씬 유용해질 것 같음

    • 이런 확률적 프레젠테이션이 멋지다고 생각함. 결과가 놀라울 수도, 웃길 수도 있음
    • 우리가 Octigen에서 거의 같은 걸 만들고 있음. 데모나 알파 버전 접근권을 줄 수 있음
    • 해커톤에서 비슷한 걸 만든 적 있음. 발표자의 톤과 말속도에 따라 텔레프롬프터 속도를 조절하는 시스템이었음. 이걸 즉흥 모드로 확장하면 정말 흥미로울 듯함
    • 강의 준비에 시간을 너무 많이 쓰는 교수로서, 이런 시스템을 수업에 도입해보고 싶음
    • 실제 예시를 보여줄 수 있는지 궁금함
  • gpt-5.3-codex-spark를 Codex CLI에서 써봤는데, 속도는 엄청 빠르지만 모델 크기가 작다는 느낌이 있음.
    내가 만든 ‘bluey bench’ 테스트(파일 시스템 벤치마크)에서 성능을 측정했는데, 작은 모델일수록 문맥 효율이 떨어지고 자주 압축(compaction)이 발생함.
    그래도 속도 면에서는 이전 세대보다 훨씬 빠름

    • 앞으로 모든 모델의 표준 벤치마크를 bluey bench로 삼았으면 함
    • Opus 4.6(생각 기능 비활성화)과 비교해봤는지 궁금함. 그 모델도 꽤 빠름
    • 이름이 기존 Codex와 비슷한데 성능은 훨씬 낮은 게 의아함
  • Cerebras는 여전히 과소평가된 회사라고 생각함. 접시만 한 크기의 칩이 실제로 작동하고, 실사용에서도 다른 어떤 것보다 빠름. 놀라운 기술임

    • 이제 Nvidia의 시대가 끝난 것 같음. Google은 TPUv9으로 추론 효율을 4배 높일 예정이고, Cerebras는 에이전트 워크로드에서 훨씬 빠름. 전력 효율과 비용 면에서도 Google이 우위임.
      전력 인프라가 병목이라, 미국에서는 대규모 발전소를 단기간에 지을 수 없음. 결국 TPUv8 이후에는 Google이 시장을 주도할 것 같음
    • 사실 이 칩이 ‘접시 크기’인 이유는 웨이퍼 전체를 하나의 칩으로 쓰기 때문임. 웨이퍼 스케일 통합은 수십 년간 연구된 기술임
    • 단점은 가격이 너무 비쌈
    • 그래도 투자자들은 여전히 Nvidia에 돈을 넣고 있음
    • 하지만 이 칩은 1개당 100만 달러 이상이고, 랙에 1개밖에 못 넣음. 밀도와 메모리 용량이 부족함. 결국 Nvidia가 Groq 인수에 200억 달러를 썼으니, Cerebras는 인수될 가능성도 낮음
  • Pelican 벤치마크가 GPT-5.3-Codex-Spark와 전체 GPT-5.3-Codex의 품질 차이를 시각적으로 보여줌
    자세한 내용은 블로그 포스트 참고

    • 새 모델이 나올 때마다 이런 벤치마크를 기다림. 여러 요소를 한 번에 보여줘서 유용함. 블로그도 최고임
  • 코딩 에이전트를 이용한 우선순위 큐 / 티어드 워크로드 오프로드 아이디어가 흥미로움.
    작업의 60%가 단순 편집이나 리팩터링이라면, 저지연·고토큰 처리가 중요함.
    최근 Claude용 Batch API 플러그인이 나왔고, Nvidia와 Google도 추론용 커스텀 실리콘을 준비 중임 (기사)

    • 다만 Batch API는 지연 시간이 훨씬 길음. 대량 작업에는 좋지만, 한 번의 왕복에 최대 24시간 걸릴 수도 있음. 게다가 Codex나 Pro 모델은 Batch API에서 지원되지 않음
    • 나는 Claude가 GLM 4.7 on Cerebras에 개발을 외주처럼 맡길 수 있는 MCP를 만들었음. Claude가 시스템 프롬프트, 출력 파일, 문맥 파일을 지정할 수 있게 했고, 개발 속도가 크게 향상됨
  • 이제 업계 표준이 된 지 20분밖에 안 됐는데, 아직도 GPT-5.3-Codex를 쓰는 사람이 있다니 놀라움

    • 나도 제목을 보고 “GPT 발표라면 Google이나 Anthropic도 뭔가 냈겠네” 했는데, 역시 Gemini가 있었음
  • OpenAI가 Openrouter에서 Aurora Alpha라는 이름으로 이걸 테스트 중일 가능성이 있음.
    Aider로 작은 프로젝트를 돌려봤는데, 1만 입력 토큰과 1천 출력 토큰을 초당 500토큰 속도로 처리했음

  • “최신 모델은 수 시간~수일 동안 자율적으로 작업을 수행할 수 있다”는 문구를 봤는데, 아직 실제로 유용한 결과물은 못 봤음

    • 얼마나 시도해봤는지 묻고 싶음. Opus 4.6이나 GPT-5.3은 장기 작업에서 확실히 개선됨. 예를 들어 이 프로젝트데모 페이지는 단 한 번의 프롬프트로 완성했음 (프롬프트 링크)
    • 나는 종종 Codex를 밤새 돌려서 버그를 찾게 함. 디버깅 자동화에는 정말 이상적임
    • 모델이 멈추지 않고 토큰을 계속 태우는 능력이 인상적임
    • “우리 모델은 너무 느려서 작업이 몇 시간 걸립니다”라는 문구가 웃김. 그게 자랑은 아닌 듯함
    • 며칠 전 Codex가 내 회사 사이트의 Vite 8 업그레이드를 3시간 넘게 혼자 처리했음. 지금은 실제 프로덕션에 반영됨
  • 드디어 대형 3사 중 하나가 Cerebras를 사용하는 걸 보게 됨. 이 날을 오래 기다렸음

    • 처음엔 검증되지 않은 기술이라 꺼렸지만, 이제 속도 면에서 큰 도약을 이룬 듯함