9P by GN⁺ 1일전 | ★ favorite | 댓글 2개
  • ChatGPT, API, Codex 전반에 적용되는 최신 프런티어 모델로, 추론·코딩·에이전트 워크플로우 성능을 통합
  • 네이티브 컴퓨터 사용(computer-use) 기능을 내장하여, 에이전트가 웹사이트와 소프트웨어를 직접 조작하며 복잡한 워크플로우를 수행 가능
  • 최대 1M 토큰 컨텍스트 윈도우를 지원하고, 도구 검색과 효율적 토큰 사용으로 속도와 비용 절감
  • ChatGPT의 Thinking 모드에서는 응답 중간에 사고 과정을 조정할 수 있고, 깊은 웹 리서치맥락 유지력이 향상
  • GPT-5.3-Codex의 코딩 성능을 흡수하면서 스프레드시트·프레젠테이션·문서 작업 정확도와 효율 대폭 개선

GPT‑5.4 개요

  • GPT‑5.4는 ChatGPT(Thinking 모드), API, Codex에 동시에 배포된 가장 강력하고 효율적인 모델
    • GPT‑5.4 Pro 버전은 복잡한 작업에서 최대 성능을 제공
  • GPT‑5.3‑Codex의 코딩 능력을 통합하고, 스프레드시트·프레젠테이션·문서 작업 등 전문 업무 환경에서의 정확도와 효율성을 강화
  • 도구·소프트웨어 환경 간 연동성이 개선되어, 실제 업무 수행 시 왕복 대화가 줄어듦

ChatGPT의 Thinking 모드 개선

  • GPT-5.4 Thinking은 작업 시작 시 사고 과정의 사전 계획(preamble) 을 제시하여, 사용자가 응답 생성 중간에 방향을 조정 가능
  • 추가 턴 없이 최종 출력이 사용자 의도에 더 정확히 부합하도록 설계
  • 딥 웹 리서치 성능 향상, 특히 매우 구체적인 쿼리에서 효과적
  • 긴 사고가 필요한 질문에서 이전 컨텍스트 유지 능력 개선으로, 더 높은 품질의 답변을 더 빠르게 제공
  • chatgpt.com과 Android 앱에서 즉시 이용 가능, iOS 앱은 추후 지원 예정

컴퓨터 사용 및 비전 기능

  • GPT-5.4는 범용 모델 최초로 네이티브 computer-use 기능을 탑재한 모델
  • Playwright 같은 라이브러리를 통한 코드 기반 컴퓨터 조작과, 스크린샷 기반 마우스·키보드 명령 발행 모두 지원
  • 개발자 메시지를 통해 행동을 조정 가능하며, 커스텀 확인 정책(confirmation policy) 으로 위험 허용 수준을 개별 설정 가능
  • OSWorld-Verified에서 75.0% 달성, 인간 성능 72.4%를 초과하고 GPT-5.2의 47.3% 대비 대폭 향상
  • WebArena-Verified에서 DOM + 스크린샷 기반 상호작용으로 67.3% 달성 (GPT-5.2: 65.4%)
  • Online-Mind2Web에서 스크린샷 기반 관찰만으로 92.8% 달성 (ChatGPT Atlas Agent Mode: 70.9%)

시각 인식 및 문서 파싱 개선

  • 개선된 범용 시각 인식 역량이 컴퓨터 사용 기능의 기반
  • MMMU-Pro에서 도구 미사용 시 81.2% (GPT-5.2: 79.5%), 도구 사용 시 82.1% (GPT-5.2: 80.4%)
  • OmniDocBench에서 추론 없이 평균 오류(정규화 편집 거리) 0.109 달성 (GPT-5.2: 0.140)
  • 새로운 original 이미지 입력 디테일 레벨 도입: 최대 10.24M 픽셀 또는 6000px 최대 차원까지 완전 충실도 인식 지원
    • high 레벨은 최대 2.56M 픽셀 또는 2048px 최대 차원으로 확장
    • 초기 API 사용자 테스트에서 위치 파악 능력, 이미지 이해, 클릭 정확도에서 강한 향상 확인

코딩 성능

  • GPT-5.3-Codex의 코딩 강점과 전문 업무·컴퓨터 사용 기능을 결합
  • SWE-Bench Pro에서 57.7% 달성 (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • 모든 추론 수준에서 GPT-5.3-Codex 대비 더 낮은 레이턴시 제공
  • Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지
    • API에서는 Priority Processing을 통해 동일한 고속 성능 접근 가능
  • 복잡한 프론트엔드 작업에서 이전 모델 대비 눈에 띄게 더 미적이고 기능적인 결과물 생성
  • 실험적 Codex 스킬 "Playwright (Interactive)" 공개: 웹 및 Electron 앱의 시각적 디버깅 지원, 빌드 중인 앱을 실시간 테스트 가능

Tool Search 기능

  • 기존에는 모든 도구 정의가 프롬프트에 사전 포함되어 수천~수만 토큰을 소비했으나, Tool Search로 경량 도구 목록만 제공하고 필요 시 정의를 동적 조회
  • 도구 집약적 워크플로우에서 토큰 사용량을 극적으로 감소시키고 캐시를 보존하여 속도와 비용 모두 개선
  • 수만 토큰 규모의 MCP 서버 도구 정의에서 특히 효율성 향상이 큼
  • Scale의 MCP Atlas 벤치마크 250개 작업 기준, 36개 MCP 서버 전체를 Tool Search로 전환 시 총 토큰 사용량 47% 감소, 정확도 동일 유지

도구 호출 및 에이전트 성능

  • GPT-5.4는 추론 중 도구 사용 시점과 방법의 정확성과 효율성을 개선
  • Toolathlon에서 54.6% 달성 (GPT-5.2: 45.7%), 더 적은 턴으로 더 높은 정확도
    • 이메일 읽기, 과제 첨부파일 추출, 업로드, 채점, 결과 스프레드시트 기록 등 다단계 실제 도구 활용 작업 평가
  • 추론 없는 저지연 시나리오에서도 τ2-bench Telecom 64.3% 달성 (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • BrowseComp에서 82.7%, GPT-5.4 Pro는 89.3% 으로 새로운 최고 성능 달성 (GPT-5.2: 65.8%)
    • "건초 더미 속 바늘 찾기" 유형의 어려운 정보 탐색에서 여러 라운드에 걸쳐 지속적으로 검색하는 능력 향상

전문 업무 및 지식 작업 성능

  • GDPval에서 미국 GDP 상위 9개 산업, 44개 직종의 실제 업무 산출물(영업 프레젠테이션, 회계 스프레드시트, 응급 진료 일정, 제조 다이어그램, 짧은 영상 등) 평가
    • GPT-5.4: 83.0% 전문가 수준 일치·초과 (GPT-5.2: 70.9%)
  • 내부 투자은행 스프레드시트 모델링 벤치마크에서 평균 87.3% (GPT-5.2: 68.4%)
  • 프레젠테이션 평가에서 인간 평가자가 GPT-5.4 결과물을 68.0% 선호 (미적 완성도, 시각적 다양성, 이미지 생성 활용도 우수)
  • 환각 및 오류 감소: 사용자가 사실 오류를 신고한 프롬프트 기준, 개별 주장의 허위 가능성 33% 감소, 전체 응답의 오류 포함 가능성 18% 감소 (GPT-5.2 대비)

1M 컨텍스트 윈도우 및 장문 맥락 성능

  • 최대 1M 토큰 컨텍스트를 지원하여 에이전트가 긴 범위의 작업을 계획·실행·검증 가능
  • Codex에서 실험적으로 1M 컨텍스트 윈도우 지원, model_context_windowmodel_auto_compact_token_limit 설정으로 구성
    • 표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 4K–8K에서 97.3%, 128K–256K에서 79.3%, 512K–1M에서 36.6%

추상 추론 및 학술 벤치마크

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro는 ARC-AGI-2에서 83.3% 달성
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro는 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: 도구 미사용 39.8%, 도구 사용 52.1% (GPT-5.2: 각각 34.5%, 45.5%)
    • GPT-5.4 Pro는 도구 사용 시 58.7% 달성

안전성 및 보안

  • GPT-5.3-Codex에서 도입한 보호 장치를 지속 개선하며, Preparedness Framework에서 High cyber capability로 분류
  • 확장된 사이버 안전 스택: 모니터링 시스템, 신뢰 기반 접근 제어, Zero Data Retention(ZDR) 표면에서의 비동기 차단 포함
  • 사이버 보안 역량의 이중 용도 특성을 고려한 예방적 배포 접근, 분류기 정확도 개선 진행 중으로 일부 오탐(false positive) 가능성 존재
  • 불필요한 거부와 과도한 단서 응답을 줄이면서 오용 방지 보호 유지 목표
  • Chain-of-Thought(CoT) 모니터링 연구 지속: 새로운 오픈소스 평가 도구 CoT controllability 공개
    • GPT-5.4 Thinking의 CoT 제어 능력이 낮아, 모델이 추론을 은닉하기 어렵다는 점에서 안전성에 긍정적

가격 및 출시 정보

  • API 모델명: gpt-5.4, Pro 버전: gpt-5.4-pro
  • API 가격 (M 토큰 기준):
    • gpt-5.4: 입력 $2.50, 캐시 입력 $0.25, 출력 $15
    • gpt-5.4-pro: 입력 $30, 출력 $180
    • gpt-5.2: 입력 $1.75, 캐시 입력 $0.175, 출력 $14
  • GPT-5.2 대비 토큰당 가격은 높지만, 토큰 효율성 향상으로 작업당 총 토큰 사용량 감소
  • Batch 및 Flex 가격은 표준의 절반, Priority Processing은 표준의 2배
  • ChatGPT에서 GPT-5.4 Thinking은 Plus, Team, Pro 사용자에게 즉시 제공, GPT-5.2 Thinking을 대체
    • GPT-5.2 Thinking은 유료 사용자 대상 Legacy Models 섹션에서 3개월간 유지 후 2026년 6월 5일 종료
    • Enterprise, Edu 플랜은 관리자 설정에서 조기 접근 활성화 가능
    • GPT-5.4 Pro는 Pro 및 Enterprise 플랜에서 제공
  • GPT-5.4는 GPT-5.3-Codex의 프론티어 코딩 역량을 통합한 최초의 메인라인 추론 모델로, Instant 모델과 Thinking 모델은 향후 서로 다른 속도로 진화할 예정

Codex에서 /fast 모드 활성화 시 최대 1.5배 빠른 토큰 속도, 동일 모델·동일 지능 수준 유지. API에서는 Priority Processing.
Priority Processing은 표준의 2배 가격
표준 272K 컨텍스트 윈도우 초과 요청은 2배 요금으로 과금

Hacker News 의견들
  • 블로그 글 하단의 “Ask ChatGPT” 박스가 웃겼음
    글 내용을 요약해달라고 입력하면 새 창이 열리지만, “외부 URL에는 접근할 수 없다”는 답변만 돌아옴
    이 기능이 실제로 작동하지 않는다는 걸 OpenAI이 알고 있는지 궁금함

    • 로그인하지 않은 사용자에게만 안 되는 것 같음
      로그인 상태에서는 정상 작동했고, 팀에 버그 리포트를 보냈음
    • 내가 시도했을 때는 정상적으로 요약이 되었음
      공유된 예시 링크 참고
      나도 로그인 상태였음
    • 나도 로그인 상태에서 요약이 잘 작동했음
      아마 로그인 여부에 따라 외부 URL 접근 권한이 달라지는 듯함
    • 오랜만에 Claude를 써봤는데, UX가 꽤 개선되어 있었음
      Anthropic 쪽이 이런 세부 UX에 더 신경 쓰는 듯함
    • 혹시 저 메시지가 저작권 문제 때문이었는지 궁금함
  • OpenAI의 모델 라인업이 너무 복잡해졌다고 느낌
    GPT‑5.1, 5.2, 5.4에 Codex 5.3, Instant 5.3까지 섞여 있음
    반면 Anthropic은 세 가지 모델만 명확히 구분하고, Google은 여전히 Preview 모델만 있음
    개발자로서 안정적인 버전을 쓰기 어렵다는 불만이 있음

    • Google의 오래된 도구 vs 새로운 베타 도구 밈이 떠오름
      항상 둘 중 하나만 선택해야 하는 상황이 반복됨
    • 버전 넘버링이 헷갈린다는 건 너무 꼬투리 잡기 같음
      엔지니어라면 5.4 > 5.2 > 5.1 정도는 쉽게 이해함
    • Google이 2.5 모델을 곧 폐기(deprecate) 한다고 통보함
      3.x는 여전히 Preview라 혼란스러움
    • Anthropic도 버전 체계가 엉망임
      Opus, Sonnet, Haiku 간 버전이 제각각이고, 가격 구조도 복잡함
      결국 모든 회사가 비슷한 문제를 겪고 있음
    • 매달 더 나은 모델이 나오는데, 굳이 같은 모델을 고집할 이유가 없음
      API만 바꾸면 쉽게 전환할 수 있는 시대임
  • GPT‑5.4의 핵심은 1M 토큰 컨텍스트 윈도우
    공식 가격표 기준으로 200k 이상에도 추가 요금이 없음
    Opus 4.6보다 훨씬 저렴하지만, 실제로 1M 컨텍스트가 실질적 이득을 줄지는 의문임
    업데이트된 문서에 따르면 GPT‑5.3‑Codex를 대체함

    • 모델 문서에 따르면
      272K 토큰을 초과하면 입력 2배, 출력 1.5배 요금이 부과됨
    • 긴 컨텍스트 vs 압축(compaction) 은 늘 고민임
      토큰이 많을수록 비용과 지연이 늘어남
      OpenAI 내부 테스트에서는 짧은 컨텍스트가 대부분의 경우 더 효율적이었음
      (직원 코멘트)
    • Claude는 같은 작업에 필요한 토큰 수가 적기 때문에
      작업당 비용으로 비교해야 함
      실제로는 GPT‑5.x와 Opus의 비용이 비슷한 수준임
      벤치마크보다 실제 업무 결과가 더 중요함
    • 대부분 공식 가격표만 보지만
      실제로는 개발자 문서가 더 정확함
      272k 이하까지만 기본 요금이 적용됨
    • 컨텍스트 부패(context rot) 문제는 여전히 존재하지만
      Anthropic은 긴 작업에 대한 RL로 이를 완화하려는 계획을 갖고 있음
  • GPT‑5.4를 몇 번 써봤는데, 글의 명료함과 분석력이 인상적이었음
    5.3‑Codex보다 훨씬 자연스럽고 인간적인 문체를 사용함
    내 AGENTS.md가 단순한 언어를 요구해서일 수도 있음

    • 하지만 내 코드베이스에서는 중요한 데이터 손실 버그를 놓쳤음
    • 매번 새 모델이 나올 때마다 “이전 모델은 원시적이었다”는 글이 올라오는데
      그 패턴이 반복되는 것 같음
    • 나도 Opus에서 Codex로 옮겼는데, 추론은 느리지만 정확도가 높아졌음
      Claude는 상대적으로 느슨한 느낌임
    • 같은 AGENTS.md 파일을 사용하면 동일한 결과가 나올지 궁금함
    • 최신 연구에 따르면 AGENTS.md를 포함하면 오히려 성능이 저하된다고 함
  • OpenAI가 8개월 동안 버전 넘버링 혼란을 피하다가 결국 다시 복잡해졌음
    GPT‑5.3 Instant, GPT‑5.4 Thinking 등 이름이 섞여 있음

    • GPT‑5.3 Instant와 gpt‑5.3‑chat의 차이가 헷갈림
    • 사실 5.3 Codex도 있었음
    • Instant 모델은 요약이나 검색엔 좋지만, 복잡한 대화에서는 맥락을 잃기 쉬움
      용도에 맞게 써야 함
  • 블로그의 RPG 게임 데모가 인상적이었음
    “Battle Brothers”와 비슷한 수준으로, 자율적 엔지니어링의 좋은 예시였음

    • AI가 한 번에 롤러코스터 타이쿤 클론을 만든 게 놀라움
      이런 속도라면 저코드 툴 시장이 위협받을 수도 있음
    • 하지만 실제로는 단순한 데모 수준으로 보였음
    • 아마 Playwright 통합 덕분일 것 같음
      Codex가 웹앱을 시각적으로 디버깅하고 테스트할 수 있게 되었음
  • 군사 및 보안 분야에서도 이 모델을 활용할 듯함

    • 폭력 관련 안전 점수가 91%에서 83%로 떨어졌다고 함
    • 혹시 군사 벤치마크(ArtificialSuperSoldier 등) 결과도 공개했는지 궁금함
    • Claude 모델처럼 Anthropic 방식으로도 쓰일 수 있을까 궁금함
    • 광고 업계도 이 기술을 탐낼 것 같음
    • 군에서는 여전히 4.1 버전을 쓰고 있어서, 업그레이드엔 시간이 걸릴 듯함
  • GPT‑5.4가 브라우저 스크린샷을 해석해 Gmail UI를 클릭하며 이메일을 보내는 기능을 시연했음
    하지만 이런 방식보다는 Gmail API를 쓰는 게 더 효율적이라고 생각함

    • 대부분의 웹사이트는 API가 없거나 문서화가 부실
      스크린샷은 문서, API, 탐색 수단을 한 번에 제공함
    • 인간 손에 맞춘 도구를 쓰기 위해 휴머노이드 로봇을 만드는 느낌임
      성공하면 범용성이 커지지만, API 기반 접근도 여전히 유효함
    • 많은 서비스가 API를 공개할 의지가 없음
      이 방식은 그런 제약을 우회할 수 있음
    • 컴퓨터 사용 능력을 익힌 모델은 어디서든 쓸 수 있지만
      API만 다루는 모델은 그렇지 않음
      경제적 확산 측면에서 전자가 더 가치 있음
    • Wikipedia가 API보다 웹 스크래핑을 더 많이 당하는 이유와 비슷함
      결국 편의성이 우선임
  • 내 일상적인 코딩에서는 상위 3개 코딩 에이전트로 충분함
    SWE‑bench Verified 기준 GPT‑5.2 Codex는 72.8점, GPT‑5.4는 약 2점 상승
    큰 도약은 아니지만 개선은 있음
    SWE‑bench에서 Claude 4.6 Opus가 75.6점으로 여전히 앞섬
    다만 Codex CLI의 에이전트 기능이 많이 향상되어 Claude Code 수준에 근접함

  • OpenAI가 모델을 통합하더니 다시 세분화된 버전을 내놓는 게 혼란스러움
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro 등 너무 많음
    그래도 1M 컨텍스트 윈도우 지원은 반가움

    • 나는 이런 선택지가 있는 게 좋음
      필요에 따라 고를 수 있고, 일반 사용자는 여전히 Auto 모드를 쓰면 됨
    • Auto 옵션이 여전히 존재하므로 큰 문제는 아님
    • 아마 백엔드에서 GPT‑5가 여러 모델을 자동 라우팅하는 구조일 것 같음