GPT‑5.4 공개

(openai.com)

11P by GN⁺ 2달전 | ★ favorite | 댓글 2개

ChatGPT, API, Codex 전반에 적용되는 최신 프런티어 모델로, 추론·코딩·에이전트 워크플로우 성능을 통합
네이티브 컴퓨터 사용(computer-use) 기능을 내장하여, 에이전트가 웹사이트와 소프트웨어를 직접 조작하며 복잡한 워크플로우를 수행 가능
최대 1M 토큰 컨텍스트 윈도우를 지원하고, 도구 검색과 효율적 토큰 사용으로 속도와 비용 절감
ChatGPT의 Thinking 모드에서는 응답 중간에 사고 과정을 조정할 수 있고, 깊은 웹 리서치와 맥락 유지력이 향상
GPT-5.3-Codex의 코딩 성능을 흡수하면서 스프레드시트·프레젠테이션·문서 작업 정확도와 효율 대폭 개선

GPT‑5.4 개요

GPT‑5.4는 ChatGPT(Thinking 모드), API, Codex에 동시에 배포된 가장 강력하고 효율적인 모델
- GPT‑5.4 Pro 버전은 복잡한 작업에서 최대 성능을 제공
GPT‑5.3‑Codex의 코딩 능력을 통합하고, 스프레드시트·프레젠테이션·문서 작업 등 전문 업무 환경에서의 정확도와 효율성을 강화
도구·소프트웨어 환경 간 연동성이 개선되어, 실제 업무 수행 시 왕복 대화가 줄어듦

ChatGPT의 Thinking 모드 개선

GPT-5.4 Thinking은 작업 시작 시 사고 과정의 사전 계획(preamble) 을 제시하여, 사용자가 응답 생성 중간에 방향을 조정 가능
추가 턴 없이 최종 출력이 사용자 의도에 더 정확히 부합하도록 설계
딥 웹 리서치 성능 향상, 특히 매우 구체적인 쿼리에서 효과적
긴 사고가 필요한 질문에서 이전 컨텍스트 유지 능력 개선으로, 더 높은 품질의 답변을 더 빠르게 제공
chatgpt.com과 Android 앱에서 즉시 이용 가능, iOS 앱은 추후 지원 예정

컴퓨터 사용 및 비전 기능

GPT-5.4는 범용 모델 최초로 네이티브 computer-use 기능을 탑재한 모델
Playwright 같은 라이브러리를 통한 코드 기반 컴퓨터 조작과, 스크린샷 기반 마우스·키보드 명령 발행 모두 지원
개발자 메시지를 통해 행동을 조정 가능하며, 커스텀 확인 정책(confirmation policy) 으로 위험 허용 수준을 개별 설정 가능
OSWorld-Verified에서 75.0% 달성, 인간 성능 72.4%를 초과하고 GPT-5.2의 47.3% 대비 대폭 향상
WebArena-Verified에서 DOM + 스크린샷 기반 상호작용으로 67.3% 달성 (GPT-5.2: 65.4%)
Online-Mind2Web에서 스크린샷 기반 관찰만으로 92.8% 달성 (ChatGPT Atlas Agent Mode: 70.9%)

시각 인식 및 문서 파싱 개선

개선된 범용 시각 인식 역량이 컴퓨터 사용 기능의 기반
MMMU-Pro에서 도구 미사용 시 81.2% (GPT-5.2: 79.5%), 도구 사용 시 82.1% (GPT-5.2: 80.4%)
OmniDocBench에서 추론 없이 평균 오류(정규화 편집 거리) 0.109 달성 (GPT-5.2: 0.140)
새로운 original 이미지 입력 디테일 레벨 도입: 최대 10.24M 픽셀 또는 6000px 최대 차원까지 완전 충실도 인식 지원
- high 레벨은 최대 2.56M 픽셀 또는 2048px 최대 차원으로 확장
- 초기 API 사용자 테스트에서 위치 파악 능력, 이미지 이해, 클릭 정확도에서 강한 향상 확인

코딩 성능

GPT-5.3-Codex의 코딩 강점과 전문 업무·컴퓨터 사용 기능을 결합
SWE-Bench Pro에서 57.7% 달성 (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
모든 추론 수준에서 GPT-5.3-Codex 대비 더 낮은 레이턴시 제공
Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지
- API에서는 Priority Processing을 통해 동일한 고속 성능 접근 가능
복잡한 프론트엔드 작업에서 이전 모델 대비 눈에 띄게 더 미적이고 기능적인 결과물 생성
실험적 Codex 스킬 "Playwright (Interactive)" 공개: 웹 및 Electron 앱의 시각적 디버깅 지원, 빌드 중인 앱을 실시간 테스트 가능

Tool Search 기능

기존에는 모든 도구 정의가 프롬프트에 사전 포함되어 수천~수만 토큰을 소비했으나, Tool Search로 경량 도구 목록만 제공하고 필요 시 정의를 동적 조회
도구 집약적 워크플로우에서 토큰 사용량을 극적으로 감소시키고 캐시를 보존하여 속도와 비용 모두 개선
수만 토큰 규모의 MCP 서버 도구 정의에서 특히 효율성 향상이 큼
Scale의 MCP Atlas 벤치마크 250개 작업 기준, 36개 MCP 서버 전체를 Tool Search로 전환 시 총 토큰 사용량 47% 감소, 정확도 동일 유지

도구 호출 및 에이전트 성능

GPT-5.4는 추론 중 도구 사용 시점과 방법의 정확성과 효율성을 개선
Toolathlon에서 54.6% 달성 (GPT-5.2: 45.7%), 더 적은 턴으로 더 높은 정확도
- 이메일 읽기, 과제 첨부파일 추출, 업로드, 채점, 결과 스프레드시트 기록 등 다단계 실제 도구 활용 작업 평가
추론 없는 저지연 시나리오에서도 τ2-bench Telecom 64.3% 달성 (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
BrowseComp에서 82.7%, GPT-5.4 Pro는 89.3% 으로 새로운 최고 성능 달성 (GPT-5.2: 65.8%)
- "건초 더미 속 바늘 찾기" 유형의 어려운 정보 탐색에서 여러 라운드에 걸쳐 지속적으로 검색하는 능력 향상

전문 업무 및 지식 작업 성능

GDPval에서 미국 GDP 상위 9개 산업, 44개 직종의 실제 업무 산출물(영업 프레젠테이션, 회계 스프레드시트, 응급 진료 일정, 제조 다이어그램, 짧은 영상 등) 평가
- GPT-5.4: 83.0% 전문가 수준 일치·초과 (GPT-5.2: 70.9%)
내부 투자은행 스프레드시트 모델링 벤치마크에서 평균 87.3% (GPT-5.2: 68.4%)
프레젠테이션 평가에서 인간 평가자가 GPT-5.4 결과물을 68.0% 선호 (미적 완성도, 시각적 다양성, 이미지 생성 활용도 우수)
환각 및 오류 감소: 사용자가 사실 오류를 신고한 프롬프트 기준, 개별 주장의 허위 가능성 33% 감소, 전체 응답의 오류 포함 가능성 18% 감소 (GPT-5.2 대비)

1M 컨텍스트 윈도우 및 장문 맥락 성능

최대 1M 토큰 컨텍스트를 지원하여 에이전트가 긴 범위의 작업을 계획·실행·검증 가능
Codex에서 실험적으로 1M 컨텍스트 윈도우 지원, model_context_window와 model_auto_compact_token_limit 설정으로 구성
- 표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 4K–8K에서 97.3%, 128K–256K에서 79.3%, 512K–1M에서 36.6%

추상 추론 및 학술 벤치마크

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro는 ARC-AGI-2에서 83.3% 달성
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro는 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 도구 미사용 39.8%, 도구 사용 52.1% (GPT-5.2: 각각 34.5%, 45.5%)
- GPT-5.4 Pro는 도구 사용 시 58.7% 달성

안전성 및 보안

GPT-5.3-Codex에서 도입한 보호 장치를 지속 개선하며, Preparedness Framework에서 High cyber capability로 분류
확장된 사이버 안전 스택: 모니터링 시스템, 신뢰 기반 접근 제어, Zero Data Retention(ZDR) 표면에서의 비동기 차단 포함
사이버 보안 역량의 이중 용도 특성을 고려한 예방적 배포 접근, 분류기 정확도 개선 진행 중으로 일부 오탐(false positive) 가능성 존재
불필요한 거부와 과도한 단서 응답을 줄이면서 오용 방지 보호 유지 목표
Chain-of-Thought(CoT) 모니터링 연구 지속: 새로운 오픈소스 평가 도구 CoT controllability 공개
- GPT-5.4 Thinking의 CoT 제어 능력이 낮아, 모델이 추론을 은닉하기 어렵다는 점에서 안전성에 긍정적

가격 및 출시 정보

API 모델명: gpt-5.4, Pro 버전: gpt-5.4-pro
API 가격 (M 토큰 기준):
- gpt-5.4: 입력 $2.50, 캐시 입력 $0.25, 출력 $15
- gpt-5.4-pro: 입력 $30, 출력 $180
- gpt-5.2: 입력 $1.75, 캐시 입력 $0.175, 출력 $14
GPT-5.2 대비 토큰당 가격은 높지만, 토큰 효율성 향상으로 작업당 총 토큰 사용량 감소
Batch 및 Flex 가격은 표준의 절반, Priority Processing은 표준의 2배
ChatGPT에서 GPT-5.4 Thinking은 Plus, Team, Pro 사용자에게 즉시 제공, GPT-5.2 Thinking을 대체
- GPT-5.2 Thinking은 유료 사용자 대상 Legacy Models 섹션에서 3개월간 유지 후 2026년 6월 5일 종료
- Enterprise, Edu 플랜은 관리자 설정에서 조기 접근 활성화 가능
- GPT-5.4 Pro는 Pro 및 Enterprise 플랜에서 제공
GPT-5.4는 GPT-5.3-Codex의 프론티어 코딩 역량을 통합한 최초의 메인라인 추론 모델로, Instant 모델과 Thinking 모델은 향후 서로 다른 속도로 진화할 예정

▲

helio 2달전 [-]

Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지. API에서는 Priority Processing.
Priority Processing은 표준의 2배 가격
표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

블로그 글 하단의 “Ask ChatGPT” 박스가 웃겼음
글 내용을 요약해달라고 입력하면 새 창이 열리지만, “외부 URL에는 접근할 수 없다”는 답변만 돌아옴
이 기능이 실제로 작동하지 않는다는 걸 OpenAI이 알고 있는지 궁금함
- 로그인하지 않은 사용자에게만 안 되는 것 같음
  로그인 상태에서는 정상 작동했고, 팀에 버그 리포트를 보냈음
- 내가 시도했을 때는 정상적으로 요약이 되었음
  공유된 예시 링크 참고
  나도 로그인 상태였음
- 나도 로그인 상태에서 요약이 잘 작동했음
  아마 로그인 여부에 따라 외부 URL 접근 권한이 달라지는 듯함
- 오랜만에 Claude를 써봤는데, UX가 꽤 개선되어 있었음
  Anthropic 쪽이 이런 세부 UX에 더 신경 쓰는 듯함
- 혹시 저 메시지가 저작권 문제 때문이었는지 궁금함
OpenAI의 모델 라인업이 너무 복잡해졌다고 느낌
GPT‑5.1, 5.2, 5.4에 Codex 5.3, Instant 5.3까지 섞여 있음
반면 Anthropic은 세 가지 모델만 명확히 구분하고, Google은 여전히 Preview 모델만 있음
개발자로서 안정적인 버전을 쓰기 어렵다는 불만이 있음
- Google의 오래된 도구 vs 새로운 베타 도구 밈이 떠오름
  항상 둘 중 하나만 선택해야 하는 상황이 반복됨
- 버전 넘버링이 헷갈린다는 건 너무 꼬투리 잡기 같음
  엔지니어라면 5.4 > 5.2 > 5.1 정도는 쉽게 이해함
- Google이 2.5 모델을 곧 폐기(deprecate) 한다고 통보함
  3.x는 여전히 Preview라 혼란스러움
- Anthropic도 버전 체계가 엉망임
  Opus, Sonnet, Haiku 간 버전이 제각각이고, 가격 구조도 복잡함
  결국 모든 회사가 비슷한 문제를 겪고 있음
- 매달 더 나은 모델이 나오는데, 굳이 같은 모델을 고집할 이유가 없음
  API만 바꾸면 쉽게 전환할 수 있는 시대임
GPT‑5.4의 핵심은 1M 토큰 컨텍스트 윈도우임
공식 가격표 기준으로 200k 이상에도 추가 요금이 없음
Opus 4.6보다 훨씬 저렴하지만, 실제로 1M 컨텍스트가 실질적 이득을 줄지는 의문임
업데이트된 문서에 따르면 GPT‑5.3‑Codex를 대체함
- 모델 문서에 따르면
  272K 토큰을 초과하면 입력 2배, 출력 1.5배 요금이 부과됨
- 긴 컨텍스트 vs 압축(compaction) 은 늘 고민임
  토큰이 많을수록 비용과 지연이 늘어남
  OpenAI 내부 테스트에서는 짧은 컨텍스트가 대부분의 경우 더 효율적이었음
  (직원 코멘트)
- Claude는 같은 작업에 필요한 토큰 수가 적기 때문에
  작업당 비용으로 비교해야 함
  실제로는 GPT‑5.x와 Opus의 비용이 비슷한 수준임
  벤치마크보다 실제 업무 결과가 더 중요함
- 대부분 공식 가격표만 보지만
  실제로는 개발자 문서가 더 정확함
  272k 이하까지만 기본 요금이 적용됨
- 컨텍스트 부패(context rot) 문제는 여전히 존재하지만
  Anthropic은 긴 작업에 대한 RL로 이를 완화하려는 계획을 갖고 있음
GPT‑5.4를 몇 번 써봤는데, 글의 명료함과 분석력이 인상적이었음
5.3‑Codex보다 훨씬 자연스럽고 인간적인 문체를 사용함
내 AGENTS.md가 단순한 언어를 요구해서일 수도 있음
- 하지만 내 코드베이스에서는 중요한 데이터 손실 버그를 놓쳤음
- 매번 새 모델이 나올 때마다 “이전 모델은 원시적이었다”는 글이 올라오는데
  그 패턴이 반복되는 것 같음
- 나도 Opus에서 Codex로 옮겼는데, 추론은 느리지만 정확도가 높아졌음
  Claude는 상대적으로 느슨한 느낌임
- 같은 AGENTS.md 파일을 사용하면 동일한 결과가 나올지 궁금함
- 최신 연구에 따르면 AGENTS.md를 포함하면 오히려 성능이 저하된다고 함
OpenAI가 8개월 동안 버전 넘버링 혼란을 피하다가 결국 다시 복잡해졌음
GPT‑5.3 Instant, GPT‑5.4 Thinking 등 이름이 섞여 있음
- GPT‑5.3 Instant와 gpt‑5.3‑chat의 차이가 헷갈림
- 사실 5.3 Codex도 있었음
- Instant 모델은 요약이나 검색엔 좋지만, 복잡한 대화에서는 맥락을 잃기 쉬움
  용도에 맞게 써야 함
블로그의 RPG 게임 데모가 인상적이었음
“Battle Brothers”와 비슷한 수준으로, 자율적 엔지니어링의 좋은 예시였음
- AI가 한 번에 롤러코스터 타이쿤 클론을 만든 게 놀라움
  이런 속도라면 저코드 툴 시장이 위협받을 수도 있음
- 하지만 실제로는 단순한 데모 수준으로 보였음
- 아마 Playwright 통합 덕분일 것 같음
  Codex가 웹앱을 시각적으로 디버깅하고 테스트할 수 있게 되었음
군사 및 보안 분야에서도 이 모델을 활용할 듯함
- 폭력 관련 안전 점수가 91%에서 83%로 떨어졌다고 함
- 혹시 군사 벤치마크(ArtificialSuperSoldier 등) 결과도 공개했는지 궁금함
- Claude 모델처럼 Anthropic 방식으로도 쓰일 수 있을까 궁금함
- 광고 업계도 이 기술을 탐낼 것 같음
- 군에서는 여전히 4.1 버전을 쓰고 있어서, 업그레이드엔 시간이 걸릴 듯함
GPT‑5.4가 브라우저 스크린샷을 해석해 Gmail UI를 클릭하며 이메일을 보내는 기능을 시연했음
하지만 이런 방식보다는 Gmail API를 쓰는 게 더 효율적이라고 생각함
- 대부분의 웹사이트는 API가 없거나 문서화가 부실함
  스크린샷은 문서, API, 탐색 수단을 한 번에 제공함
- 인간 손에 맞춘 도구를 쓰기 위해 휴머노이드 로봇을 만드는 느낌임
  성공하면 범용성이 커지지만, API 기반 접근도 여전히 유효함
- 많은 서비스가 API를 공개할 의지가 없음
  이 방식은 그런 제약을 우회할 수 있음
- 컴퓨터 사용 능력을 익힌 모델은 어디서든 쓸 수 있지만
  API만 다루는 모델은 그렇지 않음
  경제적 확산 측면에서 전자가 더 가치 있음
- Wikipedia가 API보다 웹 스크래핑을 더 많이 당하는 이유와 비슷함
  결국 편의성이 우선임
내 일상적인 코딩에서는 상위 3개 코딩 에이전트로 충분함
SWE‑bench Verified 기준 GPT‑5.2 Codex는 72.8점, GPT‑5.4는 약 2점 상승
큰 도약은 아니지만 개선은 있음
SWE‑bench에서 Claude 4.6 Opus가 75.6점으로 여전히 앞섬
다만 Codex CLI의 에이전트 기능이 많이 향상되어 Claude Code 수준에 근접함
OpenAI가 모델을 통합하더니 다시 세분화된 버전을 내놓는 게 혼란스러움
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro 등 너무 많음
그래도 1M 컨텍스트 윈도우 지원은 반가움
- 나는 이런 선택지가 있는 게 좋음
  필요에 따라 고를 수 있고, 일반 사용자는 여전히 Auto 모드를 쓰면 됨
- Auto 옵션이 여전히 존재하므로 큰 문제는 아님
- 아마 백엔드에서 GPT‑5가 여러 모델을 자동 라우팅하는 구조일 것 같음

답변달기

GPT‑5.4 공개

GPT‑5.4 개요

ChatGPT의 Thinking 모드 개선

컴퓨터 사용 및 비전 기능

시각 인식 및 문서 파싱 개선

코딩 성능

Tool Search 기능

도구 호출 및 에이전트 성능

전문 업무 및 지식 작업 성능

1M 컨텍스트 윈도우 및 장문 맥락 성능

추상 추론 및 학술 벤치마크

안전성 및 보안

가격 및 출시 정보

함께 보면 좋은 글 β

Hacker News 의견들