# GPT-5.5 공개

> Clean Markdown view of GeekNews topic #28834. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28834](https://news.hada.io/topic?id=28834)
- GeekNews Markdown: [https://news.hada.io/topic/28834.md](https://news.hada.io/topic/28834.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-24T10:02:36+09:00
- Updated: 2026-04-24T10:02:36+09:00
- Original source: [openai.com](https://openai.com/index/introducing-gpt-5-5/)
- Points: 2
- Comments: 1

## Topic Body

- **복잡한 작업을 스스로 계획하고 도구를 조합해 끝까지 수행하는 에이전트형 모델**로, 코드 작성과 디버깅부터 웹 조사, 데이터 분석, 문서·스프레드시트 생성, 소프트웨어 조작까지 폭넓게 다룸
- **GPT-5.4와 같은 per-token latency**를 유지하면서도 coding, computer use, 지식 노동, 초기 과학 연구에서 성능이 올라갔고, 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 높아짐
- 소프트웨어 엔지니어링에서는 **Terminal-Bench 2.0 82.7%**, Expert-SWE 73.1%, SWE-Bench Pro 58.6%를 기록했고, 구현·리팩터링·디버깅·테스트·검증과 큰 코드베이스 맥락 유지에서 강점이 드러남
- 일반 업무와 연구 워크플로에서도 **문서·스프레드시트·슬라이드 생성**, 화면 조작 기반 computer use, 다단계 데이터 분석, 가정 검증, 결과 해석까지 이어지는 흐름이 강화됐고, GPT-5.5 Pro는 더 높은 정확도와 포괄성을 겨냥함
- 출시 전 **강화된 안전장치**와 내부·외부 테스트를 거쳤고, ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 중심으로 순차 배포 중이어서 실무형 AI 활용 범위를 더 넓히는 단계로 보임

---

### 모델 개요와 배포 범위
- **GPT-5.5**는 더 빠르게 의도를 이해하고, 여러 단계로 얽힌 작업을 스스로 계획하며 도구를 써서 끝까지 밀고 가는 모델로 소개됨
  - 코드 작성과 디버깅, 웹 조사, 데이터 분석, 문서와 스프레드시트 작성, 소프트웨어 조작, 여러 도구를 오가는 작업을 수행할 수 있음
  - 각 단계를 세밀하게 관리하기보다, 복잡하고 정리되지 않은 작업을 한 번에 맡기고 계획·도구 사용·검증·모호성 처리까지 이어가도록 설계됨
- **에이전트형 작업**에서의 향상이 특히 강조되며, coding·computer use·knowledge work·초기 과학 연구에서 강한 성능을 보임
  - 더 큰 모델이 느려지는 경우가 많지만, 실제 서비스 기준 **per-token latency**는 GPT-5.4와 같게 유지됨
  - 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 함께 높아짐
- 출시 전 **안전장치**를 강화했고, 내부·외부 red team 테스트와 고급 cybersecurity·biology 역량에 대한 추가 시험, 약 200개 신뢰 파트너의 초기 사용 피드백을 반영함
- 현재 ChatGPT와 Codex에서 **Plus, Pro, Business, Enterprise** 사용자에게 순차 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro·Business·Enterprise에 제공됨
  - API는 별도 안전 요구사항을 맞추는 중이며, GPT-5.5와 GPT-5.5 Pro를 곧 제공할 예정임

### 소프트웨어 엔지니어링과 에이전트형 코딩
- OpenAI는 **agentic AI 인프라**를 구축 중이며, 지난 1년간 AI가 소프트웨어 엔지니어링을 크게 가속함
  - GPT-5.5가 Codex와 ChatGPT에 들어가며, 이런 변화가 과학 연구와 일반적인 컴퓨터 업무로 확장되기 시작함
- **Artificial Analysis Coding Index** 기준으로 경쟁하는 frontier coding 모델 대비 절반 비용에서 최상위 지능을 제공함
- GPT-5.5는 OpenAI 기준 **가장 강한 agentic coding 모델**로 소개됨
  - Terminal-Bench 2.0에서 82.7%를 기록했고, 계획·반복·도구 조합이 필요한 복잡한 커맨드라인 워크플로를 평가 대상으로 삼음
  - SWE-Bench Pro에서는 58.6%를 기록했고, 실제 GitHub 이슈 해결에서 이전 모델보다 더 많은 작업을 단일 패스로 종단 간 해결함
  - 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞섬
- 세 coding 평가 전반에서 **GPT-5.4보다 적은 토큰**을 쓰면서 더 높은 점수를 냄
- Codex에서의 강점은 구현, 리팩터링, 디버깅, 테스트, 검증 전반에 드러남
  - 큰 시스템의 맥락 유지, 모호한 실패 원인 추적, 도구를 통한 가정 확인, 코드베이스 전반에 걸친 변경 반영 같은 실제 엔지니어링 행동에서 더 강해짐

### 코딩 사용 예시와 초기 테스트
- Artemis II 실제 데이터를 활용한 **WebGL + Vite 앱** 구현 프롬프트가 예시로 포함됨
  - NASA/JPL Horizons 벡터 데이터를 사용해 Orion, Moon, Sun의 궤적을 렌더링함
  - 가독성을 위해 표시 스케일을 적용함
- 초기 테스터들은 GPT-5.5가 **시스템 구조**를 더 잘 파악한다고 평가함
  - 무엇이 왜 실패하는지, 수정이 어디에 들어가야 하는지, 코드베이스의 다른 부분에 어떤 영향이 가는지를 더 정확히 짚어냄
- Dan Shipper는 출시 후 장애를 되감아 놓고 같은 수준의 재설계를 만들 수 있는지 시험했으며, **GPT-5.4는 실패했고 GPT-5.5는 성공**함
- Pietro Schirano는 수백 개의 frontend와 refactor 변경이 들어간 브랜치를 많이 달라진 메인 브랜치에 **약 20분 만에 한 번에 병합**함
- 시니어 엔지니어 테스트에서는 GPT-5.4와 Claude Opus 4.7보다 **reasoning과 autonomy**가 두드러짐
  - 명시적 프롬프트 없이도 문제를 미리 잡고, 테스트와 리뷰 필요성까지 예상함
  - 협업형 markdown editor의 comment system 재설계를 요청했을 때 12-diff 스택이 거의 완성된 상태로 나옴
  - 구현 수정이 예상보다 적게 필요했고, 계획에 대한 신뢰도도 GPT-5.4보다 높아짐
- Cursor의 Michael Truell 인용문에서는 **더 오래 작업을 지속**하고, 조기 중단 없이 복잡하고 장기 실행되는 작업에 더 잘 맞는 특성이 드러남

### 일반 지식 노동과 컴퓨터 사용
- coding에서 드러난 강점이 **일상적인 컴퓨터 업무**에도 그대로 이어짐
  - 의도를 더 잘 이해하기 때문에 정보 탐색, 중요 정보 선별, 도구 사용, 결과 검증, 원재료를 유용한 산출물로 바꾸는 전 과정을 더 자연스럽게 수행함
- Codex에서 GPT-5.5는 GPT-5.4보다 **문서, 스프레드시트, 슬라이드** 생성에 더 강함
  - alpha 테스터들은 운영 리서치, 스프레드시트 모델링, 정리되지 않은 비즈니스 입력을 계획으로 바꾸는 작업에서 이전 모델보다 낫다고 밝힘
- Codex의 **computer use** 능력과 결합하면 화면을 보고, 클릭하고, 타이핑하고, 인터페이스를 탐색하며, 여러 도구를 정밀하게 오갈 수 있음
- OpenAI 내부에서도 이미 실제 워크플로에 사용 중이며, 현재 **직원의 85% 이상이 매주 Codex 사용** 중임
  - 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 전반에 걸쳐 활용됨
- 커뮤니케이션 팀은 6개월치 speaking request 데이터를 분석해 **점수화·리스크 프레임워크**를 만들고, 저위험 요청은 자동 처리하고 고위험 요청은 사람이 검토하도록 Slack agent를 검증함
- Finance 팀은 **24,771개의 K-1 세금 양식**, 총 71,637페이지를 검토했고, 개인 정보를 제외하는 워크플로를 통해 전년 대비 2주 앞당김
- Go-to-Market 팀에서는 주간 비즈니스 리포트 생성을 자동화해 **주당 5~10시간**을 절약함

### ChatGPT에서의 GPT-5.5 Thinking과 GPT-5.5 Pro
- ChatGPT의 **GPT-5.5 Thinking**은 더 어려운 문제에 더 빠르게 답하도록 설계됐고, 더 똑똑하고 간결한 답으로 복잡한 업무를 더 효율적으로 진행하게 함
  - coding, research, 정보 종합과 분석, 문서 중심 작업에 강하고 특히 plugin 사용 시 유리함
- **GPT-5.5 Pro**는 더 어려운 작업과 더 높은 품질을 겨냥하며, 지연 시간이 줄어 실무 적용성이 커짐
  - GPT-5.4 Pro 대비 응답이 더 포괄적이고, 구조가 좋고, 정확하고, 관련성이 높고, 유용해짐
  - business, legal, education, data science에서 특히 강함
- 전문 업무에 가까운 벤치마크에서도 높은 수치를 제시함
  - [GDPval](https://openai.com/index/gdpval/) 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%를 기록함
  - Tau2-bench Telecom은 **prompt tuning 없이** 수행됨
  - FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1%도 함께 제시됨
- NVIDIA의 Justin Boitano 인용문에서는 NVIDIA GB200 NVL72 시스템 위에서 제공되며, 자연어 프롬프트로 end-to-end 기능을 출하하고, 디버그 시간을 며칠에서 몇 시간으로 줄이며, 수주 걸릴 실험을 하룻밤 진행으로 바꾸는 흐름이 제시됨

### 과학 연구와 기술 연구 워크플로
- GPT-5.5는 **과학·기술 연구 워크플로**에서도 성능 향상을 보임
  - 어려운 질문에 답하는 수준을 넘어, 아이디어 탐색, 근거 수집, 가정 검증, 결과 해석, 다음 실험 결정까지 이어지는 루프를 더 잘 지속함
- [GeneBench](https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/oai_genebench_benchmark.pdf)에서 GPT-5.4보다 뚜렷한 개선을 보임
  - genetics와 quantitative biology의 다단계 데이터 분석을 겨냥한 신규 평가임
  - 모호하거나 오류가 있는 데이터, 숨겨진 confounder, QC 실패, 현대 통계 기법의 구현과 해석을 다룸
  - 여기의 작업은 과학 전문가에게도 며칠짜리 프로젝트에 해당함
- [BixBench](https://arxiv.org/abs/2503.00096)에서도 공개 점수가 있는 모델들 가운데 선도적 성능을 기록함
  - 실제 bioinformatics와 데이터 분석을 반영한 벤치마크로 소개됨
  - biomedical research 최전선에서 **co-scientist** 수준의 가속 가능성을 보여줌
- 내부 버전 GPT-5.5와 custom harness는 **Ramsey numbers**에 대한 새로운 증명을 찾는 데도 쓰임
  - [새 증명 링크](https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf)
  - combinatorics에서 오래된 off-diagonal Ramsey numbers의 점근 사실에 대한 증명을 찾았고, 이후 Lean으로 검증함
  - 코드나 설명을 넘어 핵심 연구 분야에서 유용한 수학적 논증에도 기여함
- 초기 테스터들은 GPT-5.5 Pro를 **단발성 답변 엔진보다 연구 파트너**에 가깝게 활용함
  - 원고를 여러 차례 비판적으로 검토하고, 기술 논증을 stress test하며, 분석을 제안하고, 코드·노트·PDF 문맥과 함께 작업함
  - 질문에서 실험, 산출물까지 이어지는 흐름을 더 잘 도와줌

### 연구 사례
- Jackson Laboratory for Genomic Medicine의 Derya Unutmaz는 GPT-5.5 Pro로 **62개 샘플, 약 28,000개 유전자**의 gene-expression 데이터셋을 분석함
  - 상세 연구 보고서를 생성했고, 결과 요약뿐 아니라 핵심 질문과 통찰까지 드러냄
  - 해당 작업은 그의 팀이 수행하면 수개월이 걸릴 규모였음
- Adam Mickiewicz University의 Bartosz Naskręcki는 Codex로 **단일 프롬프트에서 11분 만에** algebraic-geometry 앱을 만듦
  - 두 개의 quadratic surface 교차를 시각화하고, 결과 곡선을 Weierstrass model로 변환함
  - 이후 singularity visualization을 더 안정적으로 만들고, 후속 작업에 재사용 가능한 exact coefficients까지 추가함
  - 전용 도구가 필요했던 맞춤형 수학 시각화와 computer-algebra 워크플로 구현에도 Codex가 도움을 줌
- [Credit: Bartosz Naskręcki](https://bnaskrecki.faculty.wmi.amu.edu.pl/quadr/)
- Axiom Bio의 Brandon White 인용문에서는 거대한 biochemical dataset을 추론해 **human drug outcomes**를 예측하고, 가장 어려운 drug discovery 평가에서 의미 있는 정확도 향상이 나타남

### 추론 인프라와 성능 최적화
- GPT-5.4와 같은 지연 시간으로 **GPT-5.5를 서비스**하려면, 추론을 개별 최적화 묶음이 아니라 통합 시스템으로 다시 설계해야 했음
  - GPT-5.5는 NVIDIA GB200과 GB300 NVL72 시스템을 전제로 공동 설계·학습·서비스됨
- Codex와 GPT-5.5 자체가 성능 목표 달성에 **직접 기여**함
  - Codex는 아이디어를 벤치마크 가능한 구현으로 빠르게 옮기고, 접근법을 스케치하고, 실험을 연결하고, 더 깊은 투자가 필요한 최적화를 찾는 데 쓰임
  - GPT-5.5는 스택 내부의 핵심 개선점을 찾아 구현하는 데 도움을 줌
  - 결국 모델이 자기 자신을 서비스하는 인프라 개선에도 기여함
- 대표적 개선 사례로 **load balancing과 partitioning heuristics**를 소개함
  - 이전에는 accelerator 위 요청을 고정된 개수의 chunk로 나눠 큰 요청과 작은 요청이 같은 GPU에서 돌도록 했음
  - 하지만 정적인 chunk 수는 모든 트래픽 형태에 최적이 아니었음
  - Codex가 수주간의 production traffic 패턴을 분석하고, 작업을 최적으로 분할·균형화하는 맞춤형 heuristic 알고리듬을 작성함
  - 이 작업으로 token generation speed가 **20% 이상 증가**함

### 사이버 보안과 안전장치
- 취약점 탐지와 패치에 능한 모델을 세상에 준비시키는 일은 **팀 스포츠**에 가깝고, 다음 사이버 방어 시대를 위해 생태계 전체의 회복력이 필요함
  - 관련 링크: [next era of cyber defense](https://openai.com/index/scaling-trusted-access-for-cyber-defense/)
- frontier 모델의 **cybersecurity 역량**이 점점 강해지고 있으며, 이 능력은 널리 퍼질 것이므로 사이버 방어 가속과 생태계 강화에 쓰이게 하는 경로가 중요해짐
- GPT-5.5는 cybersecurity 같은 어려운 문제를 푸는 AI로 가는 **점진적이지만 중요한 단계**로 위치 지어짐
  - GPT-5.2 때 잠재적 cyber 악용을 제한하는 [cyber safeguards](https://openai.com/index/strengthening-cyber-resilience/)를 선제 배치함
  - GPT-5.5에는 잠재적 cyber risk에 대한 더 엄격한 classifier를 배치했고, 초기에는 일부 사용자에게 거슬릴 수 있음
- OpenAI는 수년간 [Preparedness Framework](https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf) 안에서 cybersecurity를 별도 범주로 다뤘고, 역량 향상에 맞춰 완화 수단도 반복적으로 조정해 옴
- **업계 선도 수준의 safeguards**를 이 수준의 cyber capability에 맞춰 배치함
  - GPT-5.2에서 cyber-specific safeguard를 처음 도입했고 이후 배포마다 테스트·정제·확장해 옴
  - GPT-5.5에는 고위험 활동, 민감한 cyber 요청, 반복 악용에 대한 보호를 더 강화함
  - 폭넓은 접근은 모델 안전성, 인증된 사용, 허용되지 않은 사용 모니터링에 대한 투자 덕분에 가능해짐
  - 외부 전문가와 수개월간 robustness를 개발·시험·개선함
  - 개발자가 코드를 쉽게 보호하도록 하면서도, 악의적 행위자가 해를 끼치기 쉬운 cyber 워크플로에는 더 강한 제어를 둠
- **방어 목적 접근 확대**도 함께 진행됨
  - [Trusted Access for Cyber](https://openai.com/index/scaling-trusted-access-for-cyber-defense/)를 통해 cyber-permissive 모델 접근을 제공하며, 시작점은 Codex임
  - 특정 [trust signals](https://developers.openai.com/codex/concepts/cyber-safety)을 충족한 검증 사용자에게는 GPT-5.5의 고급 cybersecurity 기능을 더 적은 제한으로 제공함
  - [critical infrastructure 방어](https://openai.com/index/accelerating-cyber-defense-ecosystem/)를 담당하는 조직은 GPT-5.4-Cyber 같은 cyber-permissive 모델 접근을 신청할 수 있음
  - 검증된 방어 담당자에게는 정당한 보안 작업용 도구를 더 적은 마찰로 제공하려는 목적임
  - 신청 링크: [chatgpt.com/cyber](http://chatgpt.com/cyber?openaicom-did=e5c15f34-c9fe-487c-b63f-fa9385ecd537&openaicom_referred=true)
- **정부 파트너와의 협력**도 포함됨
  - 세금 데이터 보호용 디지털 시스템, 전력망, 지역 사회의 상수도 같은 중요 인프라를 방어하는 공공 담당자를 고급 AI가 어떻게 지원할지 함께 탐색 중임
- GPT-5.5의 **biological/chemical 및 cybersecurity 역량**은 Preparedness Framework상 High로 분류됨
  - Critical 수준의 cybersecurity capability에는 도달하지 않았지만, 평가와 테스트에서 GPT-5.4보다 한 단계 높아진 cyber 역량이 확인됨
- 출시 전 전체 **safety and governance process**를 거침
  - preparedness 평가, 분야별 테스트, 고급 biology·cybersecurity 대상 신규 타깃 평가, 외부 전문가와의 강건한 테스트를 포함함
  - 자세한 내용은 [GPT-5.5 system card](https://deploymentsafety.openai.com/gpt-5-5)에서 제공됨
- 이런 접근은 더 강한 모델 시대에 필요한 **AI resilience** 전략의 일부임
  - 강력한 AI를 시스템·기관·공공을 방어하는 사람들에게도 제공해야 하며, 신뢰 기반 접근·역량에 비례해 강화되는 safeguards·심각한 악용을 탐지하고 대응하는 운영 역량이 핵심 경로로 제시됨

### 사용 가능 플랜과 가격
- 현재 ChatGPT와 Codex에서 **GPT-5.5**는 Plus, Pro, Business, Enterprise 사용자에게 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro, Business, Enterprise에 제공됨
- ChatGPT에서는 **GPT-5.5 Thinking**이 Plus, Pro, Business, Enterprise에 제공됨
  - GPT-5.5 Pro는 더 어려운 질문과 더 높은 정확도를 겨냥하며 Pro, Business, Enterprise에서 사용 가능함
- Codex에서는 GPT-5.5가 **Plus, Pro, Business, Enterprise, Edu, Go** 플랜에 제공되고, **400K context window**를 가짐
  - Fast mode도 제공되며, 토큰 생성 속도는 1.5배 빠르고 비용은 2.5배임
- API 개발자용 **gpt-5.5**는 Responses API와 Chat Completions API에 곧 제공될 예정임
  - 입력 1M 토큰당 5달러, 출력 1M 토큰당 30달러, **1M context window**로 표기됨
  - Batch와 Flex 가격은 표준 API 요금의 절반, Priority processing은 2.5배 요금으로 제공됨
- **gpt-5.5-pro**도 API에 출시 예정이며, 더 높은 정확도를 목표로 함
  - 입력 1M 토큰당 30달러, 출력 1M 토큰당 180달러로 적혀 있음
  - 전체 가격 정보는 [pricing page](https://openai.com/api/pricing/)에 연결됨
- GPT-5.5는 GPT-5.4보다 **가격이 더 높지만**, 지능과 토큰 효율도 더 높음
  - Codex에서는 대부분 사용자에게 GPT-5.4보다 더 적은 토큰으로 더 좋은 결과를 주도록 경험을 조정함
  - 구독 단계 전반에 걸쳐 넉넉한 사용량을 계속 제공함

### 세부 벤치마크
- ## Coding
  - SWE-Bench Pro (Public)에서 GPT-5.5는 **58.6%**, GPT-5.4는 57.7%, Claude Opus 4.7은 64.3%, Gemini 3.1 Pro는 54.2%임
  - Terminal-Bench 2.0은 GPT-5.5 **82.7%**, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%임
  - Expert-SWE (Internal)은 GPT-5.5 **73.1%**, GPT-5.4 68.5%로 제시됨
- ## 전문 업무
  - GDPval (wins or ties)은 GPT-5.5 **84.9%**, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%임
  - FinanceAgent v1.1은 GPT-5.5 **60.0%**, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%임
  - Investment Banking Modeling Tasks (Internal)은 GPT-5.5 **88.5%**, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%임
  - OfficeQA Pro는 GPT-5.5 **54.1%**, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%임
- ## 컴퓨터 사용과 비전
  - OSWorld-Verified는 GPT-5.5 **78.7%**, GPT-5.4 75.0%, Claude Opus 4.7 78.0%임
  - MMMU Pro (no tools)는 GPT-5.5와 GPT-5.4가 **81.2%** 로 같고, Gemini 3.1 Pro는 80.5%임
  - MMMU Pro (with tools)는 GPT-5.5 **83.2%**, GPT-5.4 82.1%임
- ## 도구 사용
  - BrowseComp는 GPT-5.5 **84.4%**, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%임
  - MCP Atlas는 GPT-5.5 **75.3%**, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%임
  - Toolathlon은 GPT-5.5 **55.6%**, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%임
  - Tau2-bench Telecom은 원래 프롬프트 기준 GPT-5.5 **98.0%**, GPT-5.4 92.8%임
  - MCP Atlas 주석에는 **Scale AI의 2026년 4월 최신 업데이트 이후 결과**라고 적혀 있음
  - Tau2-bench Telecom 주석에는 **prompt adjustment 없이** 평가한 결과이며, 타 연구소의 prompt adjustment 결과는 제외했다고 명시됨
- ## 학술
  - GeneBench는 GPT-5.5 **25.0%**, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%임
  - FrontierMath Tier 1–3은 GPT-5.5 **51.7%**, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%임
  - FrontierMath Tier 4는 GPT-5.5 **35.4%**, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%임
  - BixBench는 GPT-5.5 **80.5%**, GPT-5.4 74.0%임
  - GPQA Diamond는 GPT-5.5 **93.6%**, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%임
  - Humanity's Last Exam (no tools)는 GPT-5.5 **41.4%**, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%임
  - Humanity's Last Exam (with tools)는 GPT-5.5 **52.2%**, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%임
- ## 사이버 보안
  - Capture-the-Flags challenge tasks (Internal)은 GPT-5.5 **88.1%**, GPT-5.4 83.7%임
  - CyberGym은 GPT-5.5 **81.8%**, GPT-5.4 79.0%, Claude Opus 4.7 73.1%임
  - 주석에는 system card에 쓰인 가장 어려운 CTF를 확장하고 추가 고난도 챌린지를 더한 결과라고 적혀 있음
- ## 긴 문맥
  - Graphwalks BFS 256k f1은 GPT-5.5 **73.7%**, GPT-5.4 62.5%, Claude Opus 4.7 76.9%임
  - Graphwalks BFS 1mil f1은 GPT-5.5 **45.4%**, GPT-5.4 9.4%, Claude Opus 4.6은 41.2%임
  - Graphwalks parents 256k f1은 GPT-5.5 **90.1%**, GPT-5.4 82.8%, Claude Opus 4.7 93.6%임
  - Graphwalks parents 1mil f1은 GPT-5.5 **58.5%**, GPT-5.4 44.4%, Claude Opus 4.6은 72.0%임
  - OpenAI MRCR v2 8-needle은 문맥 길이별로 제시되며, 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%임
  - 같은 항목에서 GPT-5.4는 각각 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%임
  - 128K-256K 구간에는 Claude Opus 4.7 59.2%, 512K-1M 구간에는 Claude Opus 4.7 32.2%가 표기됨
- ## 추상 추론
  - ARC-AGI-1 (Verified)은 GPT-5.5 **95.0%**, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%임
  - ARC-AGI-2 (Verified)는 GPT-5.5 **85.0%**, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%임
  - GPT 계열 평가는 **reasoning effort를 xhigh**로 설정한 연구 환경에서 수행됐고, 일부 경우 생산 환경 ChatGPT와 출력이 약간 다를 수 있다고 명시됨

## Comments


### Comment 56185

- Author: neo
- Created: 2026-04-24T10:02:38+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47879092) 
- NVIDIA에서 **GPT-5.5 접근권 상실**이 마치 팔다리를 잃는 느낌이라는 말은, 의도보다 훨씬 섬뜩하게 들림  
  프론티어 **코딩 모델 의존** 전반에 해당하는 이야기 같고, 성능이 좋아질수록 코딩할 때 금방 기대게 됨  
  직접 겪어보니 불편한 감정이 큼. 이제는 인내심을 들여 손코딩하기보다 모델로 한 번에 처리하는 쪽이 10배쯤 빠르고, 내 역할도 바뀌었음  
  많이 돌아가게 만들 수 있다는 건 대단하지만, 토큰이 떨어지면 사실상 일도 멈춤  
  Claude가 죽었을 때는 억지로 코드 쓰는 것보다 산책하고 오는 편이 더 레버리지가 큼. 한 시간 뒤 Claude가 살아 있으면, LLM이 만든 코드를 붙잡고 수동으로 문제를 풀려다 지치는 것보다 더 많은 진척을 냄  
  아무튼 이런 상태가 계속 좀 불안함
  - **노동 이론** 자체가 LLM 때문에 뒤집히는 느낌임  
    지금 시장은 노동이 원자화돼 있고 협상력이 약하다는 가정 위에 서 있는데, 자본은 훨씬 큰 협상력을 갖고 노동 가격을 사실상 정해왔음  
    그런데 그 노동을 더 큰 다른 회사가 제공하고, 그 노동은 전통적 노동과 달리 무기한 공급을 끊을 수도 있다면 어떻게 되겠나  
    이제 노동이 또 다른 형태의 **자본**이 됐고, 자본은 밥을 먹지 않아도 됨  
    자체 모델을 안 쓰는 회사는 그 결과를 몸으로 배우게 될 듯함
  - **라이브러리 추상화**를 쓰는 것과 아주 다르지 않다고도 볼 수 있음  
    더 빨리 만들고, 직접 쓰는 코드는 줄고, 내부 상태 관리나 메모리 관리는 라이브러리가 대신해줌  
    포인터와 `malloc()`을 직접 만지는 대신 라이브러리 호출에 의존하는 걸 불편해하는 사람도 있겠지만, 어떤 사람에게는 저수준 문맥 전환에 빠지지 않고 더 높은 수준의 아키텍처에 집중할 수 있게 해주는 해방감이 있음
  - **내 무덤을 너무 빨리 파지 않기** 위해 일부러 쓰는 방식이 있음  
    미리 완성된 답 대신 독립 실행형 CLI나 도구를 만들어 달라고 자주 요청함  
    어떻게 그런 결론에 도달했는지도 물어서 내 관점을 넓히려 하고, 자기 메타데이터 수준의 분류 방식도 설명하게 함  
    특히 어려움이 개념 자체보다 **레퍼런스 그래프 크기**에 있는 대형 코드베이스에서는, 이걸 내 문제 해결력을 개선하는 쪽으로 활용하려 함
  - **로컬 모델**이 최신 호스티드 모델과 적당한 격차만 유지하고, 예를 들어 12개월 뒤처지는 정도에 머물며, 로컬 하드웨어도 계속 접근 가능하다면 위험은 제한적일 수 있음  
    호스티드 모델이 사라지거나 너무 비싸져도 그 약간의 성능 차이만 잃는 셈이기 때문임  
    물론 이 두 가정 모두 전혀 자명하지는 않아서 그냥 그렇게 되길 바라는 정도임
  - NVIDIA와 OpenAI **주가 이해관계**를 생각하면 저런 말이 나오는 것도 이상하지 않음  
    그리고 아직도 **10배 생산성** 구호가 반복되는 건 솔직히 믿기 어려움

- **GPT-5.5 출시**는 오늘이지만, ChatGPT와 Codex 반영은 몇 시간에 걸쳐 점진적으로 진행된다고 함  
  서비스 안정성을 위해 이전 출시 때처럼 단계적으로 열고, 보통 Pro/Enterprise부터 시작해서 Plus로 내려감  
  바로 안 보일 수 있으니 나중에 다시 확인하라고 함  
  랜덤하게 기다려야 해서 짜증날 수는 있지만 안정성을 위해 그렇게 한다고 함  
  OpenAI에서 일한다고 밝힘
  - **GPT-5.4 API xhigh**로 OpenClaw를 돌려봤는데, 모델이 일을 하게 만들 수가 없었음  
    Anthropic OAuthgate 이후 대체로 써보려 했는데, 빠르고 안전하고 무해한 하위 작업조차 끝내지 못했음  
    대화가 “여기서 X를 했어야 했네” “맞다, 실패했다” “그럼 지금 해” “그래야 했는데 안 했다” 식으로 끝없이 사과만 반복됐음  
    나중에 **GLM, Kimi, Minimax**는 문제 없이 해낸 걸 보면 더 황당했고, 그래서 OpenAI는 바로 버릴 수밖에 없었음
  - 공개용 **롤아웃 대시보드**가 있으면 혼란이 훨씬 줄어들 듯함  
    더 나아가 UI에서 모델은 존재하지만 아직 내 계정엔 열리지 않았다는 걸 보여주면 좋겠음  
    ETA까지 나오면 최고겠지만, 롤아웃 중 문제가 생길 수 있어 예측이 어렵긴 할 듯함
  - 출시 축하함  
    **Images 2.0**도 ChatGPT 안에서 같이 풀리는지, 아니면 한동안은 API/Playground 전용 기능이 남는지 궁금함
  - Plus 사용자 입장에서는 **Codex 사용량 한도**를 얼마나 먹을지 몰라서 선뜻 써보기 망설여짐
  - **GPT-5.5 파인튜닝**도 곧 나오는지 궁금함

- 아직 **공식 API 접근**은 없지만, 요즘 OpenAI는 OpenClaw가 쓰는 Codex API 백도어를 사실상 묵인하는 분위기로 보임  
  [https://twitter.com/steipete/status/2046775849769148838](<https://twitter.com/steipete/status/2046775849769148838>) 및 [https://twitter.com/romainhuet/status/2038699202834841962](<https://twitter.com/romainhuet/status/2038699202834841962>)  
  그 백도어 API에는 **GPT-5.5**도 들어가 있음  
  그래서 펠리컨 예제를 돌려봤고, [https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...](<https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-pelicans>)  
  LLM용 새 플러그인 [https://github.com/simonw/llm-openai-via-codex](<https://github.com/simonw/llm-openai-via-codex>)을 사용했음  
  나중에 reasoning effort를 **xhigh**로 올리니 훨씬 나은 펠리컨이 나왔음  
  [https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...](<https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602cc5?permalink_comment_id=6115759#gistcomment-6115759>)
  - 어제 올린 **로컬 모델 펠리컨**이 이거보다 더 보기 좋았음  
    그래도 이번 건 다리를 꼬고 있어서 웃기긴 함
  - 이건 솔직히 너무 별로임  
    **5.5 버전**이나 나왔는데 아직도 기본적인 자전거 프레임 하나 제대로 못 그리면 어떡하나  
    앞바퀴가 옆으로 돌아갈 구조가 아닌데 그림이 그걸 못 맞춤
  - 기본 설정이 **reasoning tokens 39개**만 쓰고 저 정도를 했다는 건 꽤 놀라움  
    reasoning token이 정확히 뭔지는 모르겠지만, 어쨌든 토큰 수가 충격적으로 적어 보임
  - 이런 **직접 API 사용**이 약관상 허용되는지 궁금함  
    Anthropic은 이런 식 사용을 굉장히 싫어했던 걸로 기억함
  - 왜 최근 올린 다른 것들보다 **훨씬 못 그리는지** 궁금함  
    어제 올린 Qwen 같은 오픈 웨이트 로컬 모델들조차 더 나아 보였음

- 다들 Anthropic의 **Mythos 게이팅**과 CyberGym 83% 마케팅만 얘기했는데, OpenAI는 GPT-5.5를 그냥 내놓았고 점수도 82%임  
  누구나 써볼 수 있다는 점이 훨씬 중요함  
  공격/방어 **사이버보안** 쪽 사람이라면 과장된 홍보보다 이런 실제 공개 모델을 직접 만져보는 게 맞다고 봄  
  이런 말 하게 될 줄은 몰랐지만, 이제 OpenAI가 다시 더 **오픈한 선택지**처럼 보임
  - 진짜 **하이프**는 Anthropic이 Mythos를 발표하자마자 OpenAI가 몇 주 안에 경쟁 모델을 내놓고, Sam은 접근도 막지 않을 거라는 걸 다들 깨달은 데 있었음  
    그래서 보안 업계가 공포에 휩싸인 건, 새 제로데이를 막을 시간이 사실상 2주 남짓뿐이고 그 뒤엔 블랙햇들이 대거 찾아내 악용하는 **오픈 시즌**이 열릴 수 있다고 봤기 때문임
  - Anthropic과 비교하면 OpenAI가 원래부터 더 **오픈**했음  
    Anthropic은 공개 모델을 한 번도 낸 적 없고, **Claude Code 소스**도 자발적으로 공개한 적 없고, 토크나이저도 안 풀었음
  - OpenAI는 **사이버보안 질문**을 하면 화를 내고, 정부 신분증 업로드를 요구하며, 안 하면 조용히 성능 낮은 모델로 라우팅하는 것 아닌가 싶음  
    문서에도 사이버보안 관련 작업은 자동 감지에 걸리면 **GPT-5.2로 폴백**될 수 있다고 적혀 있음  
    [https://developers.openai.com/codex/concepts/cyber-safety](<https://developers.openai.com/codex/concepts/cyber-safety>)  
    [https://chatgpt.com/cyber](<https://chatgpt.com/cyber>)
  - 나는 **하이프 뉴스**는 다 무시함  
    Anthropic은 내게 거의 허풍의 구현체처럼 느껴짐  
    예전에 Cialdini를 읽고 나서는 Anthropic식 연출이 지루해졌음  
    반면 OpenAI는 아주 영리함. Claude가 뜨자 한동안 헤드라인에서 사라졌다가, 지금은 거대한 사용자 기반 덕분에 Anthropic의 릴리스 주기만 따라가도 상대를 우스워 보이게 만들 수 있음  
    Anthropic 입장에선 매번 새 **GPT 버전**이 나올수록 더 처참해질 듯하고, OpenAI가 완전히 장악하는 그림처럼 보임
  - OpenAI도 **사이버 질문**은 더 멍청한 모델로 돌려버리는 것 아닌가 싶음

- 이 페이지의 **요금/사용량 제한** 섹션을 봤으면 함  
  [https://developers.openai.com/codex/pricing?codex-usage-limi...](<https://developers.openai.com/codex/pricing?codex-usage-limits=plus#what-are-the-usage-limits-for-my-plan>)  
  5.3, 5.4, 5.5 사이의 **Local Messages** 차이를 보면 됨  
  5.5가 더 효율적이라 5.4와 손익분기 비슷하다고 주장하는 건 읽었지만, 어쨌든 제한은 더 빡세지고 가격은 올라가는 흐름으로 보임
  - API 기준으로 **GPT-5.5 가격**은 GPT-5.4의 2배, GPT-5.1의 약 4배, **Kimi-2.6**의 약 10배임  
    Anthropic 사례를 보고 얻은 교훈이, 개발자는 코딩 에이전트에 금방 의존하고 심지어 중독되기까지 하니 작은 개선만 있어도 얼마든지 돈을 낸다는 거였던 듯함

- Codex와 GPT로 만든 **3D 던전 아레나 프로토타입**은 꽤 그럴듯해 보임  
  Codex가 게임 아키텍처, TypeScript/Three.js 구현, 전투 시스템, 적 조우, HUD 피드백을 맡고, 환경 텍스처는 GPT가 생성했으며, 캐릭터 모델과 애니메이션은 서드파티 에셋 생성 도구로 만들었다고 함  
  시각적으로 괜찮은 이유도 아마 메시를 GPT-5.5가 직접 만든 게 아니라 별도 도구가 만들었기 때문일 가능성이 큼  
  이걸 보면 예전 **Flash 시대**처럼 게이머나 취미 개발자도 게임 콘셉트를 빠르게 만들고 바로 웹에 공개하는 시대가 오는 듯함  
  특히 Three.js는 게임 엔진도 아닌데, AI로 게임을 설계하는 데 사실상 핵심 도구처럼 올라오는 분위기임
  - 지난 **3년간 Three.js와 AI**를 계속 실험해봤는데, 5.4에서 특히 큰 도약을 느꼈음  
    Three.js 쪽만 놓고 보면 가장 큰 단일 세대 점프였고, 특히 **GLSL 셰이더**에서 두드러졌으며 여러 페이지/컴포넌트로 나뉜 씬 구조화도 나아졌음  
    완전한 셰이더를 처음부터 만드는 건 아직 어렵지만, 기존 셰이더를 수정하는 능력은 이제 꽤 쓸 만함  
    5.2 이하에서는 하나의 배경 캔버스를 여러 라우트에 걸쳐 유지하는 **one canvas, multiple page** 패턴을 정말 못 했는데, 5.4는 아직 손을 좀 잡아줘야 해도 리팩터링과 최적화 프롬프트에 훨씬 잘 반응함  
    5.5가 실제로 어떤지 시험해볼 생각에 기대됨
  - **Flash 같은 시대**는 이미 한동안 와 있었고, 병목은 늘 창의성이었음
  - **Three.js 기반 게임**과 프로젝트에서 LLM 도움을 많이 받아봤고 성과도 좋았음  
    내가 만든 별난 시계 시각화도 상당 부분 여기에 의존했음  
    게임 엔진은 아니지만 웹에서 WebGL 3D를 할 때는 사실상 표준이고, 오래된 만큼 **학습 데이터**도 방대함  
    LLM 이전에는 좀 더 상위 수준 기능이 많은 **Babylon.js**를 더 의존했음
  - 지인이 **Jamboree**를 만들고 있음  
    예전 이름은 Spielwerk였고, iOS에서 게임을 만들고 공유하는 앱임  
    전부 웹 기반이라 공유가 쉬움  
    [https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...](<https://apps.apple.com/uz/app/jamboree-game-maker/id6747311034>)
  - LLM은 아직 **공간 추론**을 못 함  
    GPT는 안 해봤지만 Claude로는 아무리 프롬프트 엔지니어링을 해도 **루빅 큐브**를 못 풀었고, Opus 4.6도 퍼즐의 약 70% 정도만 맞추고 막혔음  
    한 번 시도에 20달러씩 드니 비용도 감당하기 어려움  
    만약 3차원 추론을 제대로 시킬 수 있다면, 지금 못 푸는 수학 문제들에도 같은 접근을 확장할 수 있을 듯함  
    내 **Rubik's Cube MCP 서버**를 공개해서 누가 프롬프트만으로 큐브를 풀 수 있는지 도전하게 해볼까 생각 중임

- 이번 발표에서 벤치마크보다 더 흥미로운 부분은, Codex가 몇 주치 실제 트래픽 패턴을 분석해 GPU 활용을 높이고, 작업 분할과 밸런싱을 위한 **커스텀 휴리스틱 알고리즘**을 작성해서 토큰 생성 속도를 20% 이상 끌어올렸다는 대목임  
  에이전트형 LLM이 이런 식으로 **계산 효율 최적화**를 해내는 영역은 영향력이 큰데도 벤치마크보다 덜 시험되는 듯함  
  내 경험상 이 부분은 아직 Opus가 GPT/Codex보다 낫지만, OpenAI가 비용과 용량 압박 속에서 이런 성능 극대화로 실질적 이득을 보고 있으니 앞으로도 계속 이 방향을 밀 것 같음
  - Rust로 **고성능 데이터 처리**를 하다가 100배 이상 개선해야 하는 성능 장벽을 만났음  
    예전에 유명했던 Intel **FizzBuzz 코드골프 최적화**가 떠올라서, gemini pro에게 내 코드와 함께 “그런 류의 영리한 최적화를 제안해달라”고 했더니 제안이 정말 멋졌음  
    LLM은 매일같이 계속 놀라게 함
  - 이미 **KernelBench**가 CUDA 커널 최적화를 테스트하고 있음  
    그리고 각 회사도 자기 인프라와 모델 최적화가 경쟁에서 이기는 핵심 경로라는 걸 다 아니까, 이 부분은 아주 진지하게 하고 있을 거라 봄
  - 이런 주장은 너무 **경험적**이라 재현이 어려운 게 문제임  
    MMLU 같은 전통 벤치 바깥으로 나아가는 건 반갑지만, 적절한 통제 실험 없이 이런 식 수치를 말하는 건 큰 도움이 안 됨

- **Mythos vs GPT-5.5**를 수치로 보면 SWE-bench Pro에서는 아직 차이가 크지만, 그 외에는 꽤 비슷해 보임  
  SWE-bench Pro 77.8% 대 58.6%  
  Terminal-bench-2.0 82.0% 대 82.7%  
  GPQA Diamond 94.6% 대 93.6%  
  H. Last Exam 56.8% 대 41.4%  
  H. Last Exam (tools) 64.7% 대 52.2%  
  BrowseComp 86.9% 대 84.4%, Pro 기준 90.1%  
  OSWorld-Verified 79.6% 대 78.7%  
  Mythos 수치 출처는 [https://www.anthropic.com/glasswing](<https://www.anthropic.com/glasswing>)임
  - **Mythos**는 실제로 쓸 수 있을 때만 의미가 있음  
    지금 Opus 4.7을 써보면 자율성이 체감상 엄청 너프돼 있고, 이른바 안전성 때문에 제약이 심함  
    그래서 Anthropic이 광고하는 만큼 실제로 대단할지 나는 확신이 잘 안 섬
  - Anthropic 릴리스 페이지에 따르면 **SWE-bench 암기**를 Claude 팀이 확인했고, 테스트가 실제로 학습 데이터에 들어가 있었다고 함  
    여기 있음  
    [https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...](<https://www.anthropic.com/news/claude-opus-4-7#:~:text=memorization>)
  - 나는 **SWE-bench Verified**를 좀 들여다봤는데, Mythos 수치는 여러 의문을 남김  
    공식 제출들을 [https://github.com/SWE-bench/experiments/tree/main/evaluatio...](<https://github.com/SWE-bench/experiments/tree/main/evaluation/verified>)에서 Sonnet 4 이후 모델만 추려 500개 문제 전체에 대해 합산해보니, 모든 모델을 합친 해결률이 정확히 93%였음  
    그런데 Mythos가 93.7%를 찍었다는 건 다른 어떤 모델도 못 푼 문제까지 푼다는 뜻인데, 그 문제들을 직접 보니 더 수상했음  
    남은 7% 문제는 테스트 패치를 미리 보지 않고는 해결이 거의 불가능해 보였고, 실제 해법이 문제 설명과 너무 다르게 흘러가서 아예 다른 문제를 푸는 느낌까지 들었음  
    Mythos가 속였다고 단정하는 건 아니지만, 저장소의 여러 상태를 너무 잘 기억해서 내부 기억 속 diff만으로 **진짜 문제 진술**을 역추론하는 수준일 수도 있겠다고 봄  
    그렇지 않고서야 저렇게 애매한 문제 설명을 그렇게 정확히 해석하는 방식을 설명하기 어려움
  - **단일 벤치마크**로는 아무 의미가 없음  
    벤치마다 늘 특이한 결과가 튀어나오기 마련임

- 아직도 **환각률 86%** 라서 아쉽다는 생각임  
  비교하면 Opus는 36% 수준임  
  출처는 [https://artificialanalysis.ai/models?omniscience=omniscience...](<https://artificialanalysis.ai/models?omniscience=omniscience-hallucination-rate#aa-omniscience-hallucination-rate>)임
  - Grok이 **17%** 이고 그게 최저이며, 대부분 모델이 80% 이상이라는 건 이상함  
    질문에 따라 환각은 오히려 100%에 더 가깝기도 한데, 이 벤치는 직관적으로 잘 납득되지 않음
  - 뭔가 이상한데, **Haiku**가 그렇게 잘 나올 리는 없어 보임
  - 이건 업체들이 그런 행동을 **원한다는 신호**처럼 읽힘  
    질문하는 사람은 문제를 완전히 이해하지 못했을 가능성이 높고, 그래서 결과가 어떻든 일단 자신감 있는 답을 선호하는 듯함  
    목표는 기술의 실제 역량보다 **유능해 보이는 인상**을 파는 데 있는 것 같음  
    LLM은 제품을 망칠 수도 있는데, 억만장자의 사고 기계가 직원을 대체할 수 있다고 믿고 노동 예산의 75%를 거기에 쏟으라는 식이라면 즐겁게 당해보라는 말밖에 안 나옴

- 이 모델은 **장기 과제**에 아주 강하고, Codex에는 이제 **heartbeats**도 들어가서 계속 상태를 확인할 수 있다고 함  
  검증 가능한 제약이 있으면서 몇 시간이 걸릴 어려운 문제를 맡겨보면 얼마나 좋은지 알 수 있을 거라고 함  
  OpenAI에서 일한다고 밝힘
  - 좋은 기능 같고 빨리 테스트해보고 싶음  
    요즘 다른 모델들, 특히 **Opus**가 작업 중간에 자꾸 멈춰서 지쳤음
  - **Canva 내부 평가**에서는 GPT-5.5가 장기 과제형 프론티어 챌린지를 많이 해결했고, 우리가 테스트한 AI 모델 중 처음인 경우도 많았음  
    출시 축하함
  - **heartbeats**가 정확히 뭔지 설명이 필요함