GPT‑5.4 공개

▲

GN⁺ 2달전 | parent | ★ favorite | on: GPT‑5.4 공개(openai.com)

Hacker News 의견들

블로그 글 하단의 “Ask ChatGPT” 박스가 웃겼음
글 내용을 요약해달라고 입력하면 새 창이 열리지만, “외부 URL에는 접근할 수 없다”는 답변만 돌아옴
이 기능이 실제로 작동하지 않는다는 걸 OpenAI이 알고 있는지 궁금함
- 로그인하지 않은 사용자에게만 안 되는 것 같음
  로그인 상태에서는 정상 작동했고, 팀에 버그 리포트를 보냈음
- 내가 시도했을 때는 정상적으로 요약이 되었음
  공유된 예시 링크 참고
  나도 로그인 상태였음
- 나도 로그인 상태에서 요약이 잘 작동했음
  아마 로그인 여부에 따라 외부 URL 접근 권한이 달라지는 듯함
- 오랜만에 Claude를 써봤는데, UX가 꽤 개선되어 있었음
  Anthropic 쪽이 이런 세부 UX에 더 신경 쓰는 듯함
- 혹시 저 메시지가 저작권 문제 때문이었는지 궁금함
OpenAI의 모델 라인업이 너무 복잡해졌다고 느낌
GPT‑5.1, 5.2, 5.4에 Codex 5.3, Instant 5.3까지 섞여 있음
반면 Anthropic은 세 가지 모델만 명확히 구분하고, Google은 여전히 Preview 모델만 있음
개발자로서 안정적인 버전을 쓰기 어렵다는 불만이 있음
- Google의 오래된 도구 vs 새로운 베타 도구 밈이 떠오름
  항상 둘 중 하나만 선택해야 하는 상황이 반복됨
- 버전 넘버링이 헷갈린다는 건 너무 꼬투리 잡기 같음
  엔지니어라면 5.4 > 5.2 > 5.1 정도는 쉽게 이해함
- Google이 2.5 모델을 곧 폐기(deprecate) 한다고 통보함
  3.x는 여전히 Preview라 혼란스러움
- Anthropic도 버전 체계가 엉망임
  Opus, Sonnet, Haiku 간 버전이 제각각이고, 가격 구조도 복잡함
  결국 모든 회사가 비슷한 문제를 겪고 있음
- 매달 더 나은 모델이 나오는데, 굳이 같은 모델을 고집할 이유가 없음
  API만 바꾸면 쉽게 전환할 수 있는 시대임
GPT‑5.4의 핵심은 1M 토큰 컨텍스트 윈도우임
공식 가격표 기준으로 200k 이상에도 추가 요금이 없음
Opus 4.6보다 훨씬 저렴하지만, 실제로 1M 컨텍스트가 실질적 이득을 줄지는 의문임
업데이트된 문서에 따르면 GPT‑5.3‑Codex를 대체함
- 모델 문서에 따르면
  272K 토큰을 초과하면 입력 2배, 출력 1.5배 요금이 부과됨
- 긴 컨텍스트 vs 압축(compaction) 은 늘 고민임
  토큰이 많을수록 비용과 지연이 늘어남
  OpenAI 내부 테스트에서는 짧은 컨텍스트가 대부분의 경우 더 효율적이었음
  (직원 코멘트)
- Claude는 같은 작업에 필요한 토큰 수가 적기 때문에
  작업당 비용으로 비교해야 함
  실제로는 GPT‑5.x와 Opus의 비용이 비슷한 수준임
  벤치마크보다 실제 업무 결과가 더 중요함
- 대부분 공식 가격표만 보지만
  실제로는 개발자 문서가 더 정확함
  272k 이하까지만 기본 요금이 적용됨
- 컨텍스트 부패(context rot) 문제는 여전히 존재하지만
  Anthropic은 긴 작업에 대한 RL로 이를 완화하려는 계획을 갖고 있음
GPT‑5.4를 몇 번 써봤는데, 글의 명료함과 분석력이 인상적이었음
5.3‑Codex보다 훨씬 자연스럽고 인간적인 문체를 사용함
내 AGENTS.md가 단순한 언어를 요구해서일 수도 있음
- 하지만 내 코드베이스에서는 중요한 데이터 손실 버그를 놓쳤음
- 매번 새 모델이 나올 때마다 “이전 모델은 원시적이었다”는 글이 올라오는데
  그 패턴이 반복되는 것 같음
- 나도 Opus에서 Codex로 옮겼는데, 추론은 느리지만 정확도가 높아졌음
  Claude는 상대적으로 느슨한 느낌임
- 같은 AGENTS.md 파일을 사용하면 동일한 결과가 나올지 궁금함
- 최신 연구에 따르면 AGENTS.md를 포함하면 오히려 성능이 저하된다고 함
OpenAI가 8개월 동안 버전 넘버링 혼란을 피하다가 결국 다시 복잡해졌음
GPT‑5.3 Instant, GPT‑5.4 Thinking 등 이름이 섞여 있음
- GPT‑5.3 Instant와 gpt‑5.3‑chat의 차이가 헷갈림
- 사실 5.3 Codex도 있었음
- Instant 모델은 요약이나 검색엔 좋지만, 복잡한 대화에서는 맥락을 잃기 쉬움
  용도에 맞게 써야 함
블로그의 RPG 게임 데모가 인상적이었음
“Battle Brothers”와 비슷한 수준으로, 자율적 엔지니어링의 좋은 예시였음
- AI가 한 번에 롤러코스터 타이쿤 클론을 만든 게 놀라움
  이런 속도라면 저코드 툴 시장이 위협받을 수도 있음
- 하지만 실제로는 단순한 데모 수준으로 보였음
- 아마 Playwright 통합 덕분일 것 같음
  Codex가 웹앱을 시각적으로 디버깅하고 테스트할 수 있게 되었음
군사 및 보안 분야에서도 이 모델을 활용할 듯함
- 폭력 관련 안전 점수가 91%에서 83%로 떨어졌다고 함
- 혹시 군사 벤치마크(ArtificialSuperSoldier 등) 결과도 공개했는지 궁금함
- Claude 모델처럼 Anthropic 방식으로도 쓰일 수 있을까 궁금함
- 광고 업계도 이 기술을 탐낼 것 같음
- 군에서는 여전히 4.1 버전을 쓰고 있어서, 업그레이드엔 시간이 걸릴 듯함
GPT‑5.4가 브라우저 스크린샷을 해석해 Gmail UI를 클릭하며 이메일을 보내는 기능을 시연했음
하지만 이런 방식보다는 Gmail API를 쓰는 게 더 효율적이라고 생각함
- 대부분의 웹사이트는 API가 없거나 문서화가 부실함
  스크린샷은 문서, API, 탐색 수단을 한 번에 제공함
- 인간 손에 맞춘 도구를 쓰기 위해 휴머노이드 로봇을 만드는 느낌임
  성공하면 범용성이 커지지만, API 기반 접근도 여전히 유효함
- 많은 서비스가 API를 공개할 의지가 없음
  이 방식은 그런 제약을 우회할 수 있음
- 컴퓨터 사용 능력을 익힌 모델은 어디서든 쓸 수 있지만
  API만 다루는 모델은 그렇지 않음
  경제적 확산 측면에서 전자가 더 가치 있음
- Wikipedia가 API보다 웹 스크래핑을 더 많이 당하는 이유와 비슷함
  결국 편의성이 우선임
내 일상적인 코딩에서는 상위 3개 코딩 에이전트로 충분함
SWE‑bench Verified 기준 GPT‑5.2 Codex는 72.8점, GPT‑5.4는 약 2점 상승
큰 도약은 아니지만 개선은 있음
SWE‑bench에서 Claude 4.6 Opus가 75.6점으로 여전히 앞섬
다만 Codex CLI의 에이전트 기능이 많이 향상되어 Claude Code 수준에 근접함
OpenAI가 모델을 통합하더니 다시 세분화된 버전을 내놓는 게 혼란스러움
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro 등 너무 많음
그래도 1M 컨텍스트 윈도우 지원은 반가움
- 나는 이런 선택지가 있는 게 좋음
  필요에 따라 고를 수 있고, 일반 사용자는 여전히 Auto 모드를 쓰면 됨
- Auto 옵션이 여전히 존재하므로 큰 문제는 아님
- 아마 백엔드에서 GPT‑5가 여러 모델을 자동 라우팅하는 구조일 것 같음