GN⁺ 2달전 | parent | ★ favorite | on: GPT‑5.4 공개(openai.com)
Hacker News 의견들
  • 블로그 글 하단의 “Ask ChatGPT” 박스가 웃겼음
    글 내용을 요약해달라고 입력하면 새 창이 열리지만, “외부 URL에는 접근할 수 없다”는 답변만 돌아옴
    이 기능이 실제로 작동하지 않는다는 걸 OpenAI이 알고 있는지 궁금함

    • 로그인하지 않은 사용자에게만 안 되는 것 같음
      로그인 상태에서는 정상 작동했고, 팀에 버그 리포트를 보냈음
    • 내가 시도했을 때는 정상적으로 요약이 되었음
      공유된 예시 링크 참고
      나도 로그인 상태였음
    • 나도 로그인 상태에서 요약이 잘 작동했음
      아마 로그인 여부에 따라 외부 URL 접근 권한이 달라지는 듯함
    • 오랜만에 Claude를 써봤는데, UX가 꽤 개선되어 있었음
      Anthropic 쪽이 이런 세부 UX에 더 신경 쓰는 듯함
    • 혹시 저 메시지가 저작권 문제 때문이었는지 궁금함
  • OpenAI의 모델 라인업이 너무 복잡해졌다고 느낌
    GPT‑5.1, 5.2, 5.4에 Codex 5.3, Instant 5.3까지 섞여 있음
    반면 Anthropic은 세 가지 모델만 명확히 구분하고, Google은 여전히 Preview 모델만 있음
    개발자로서 안정적인 버전을 쓰기 어렵다는 불만이 있음

    • Google의 오래된 도구 vs 새로운 베타 도구 밈이 떠오름
      항상 둘 중 하나만 선택해야 하는 상황이 반복됨
    • 버전 넘버링이 헷갈린다는 건 너무 꼬투리 잡기 같음
      엔지니어라면 5.4 > 5.2 > 5.1 정도는 쉽게 이해함
    • Google이 2.5 모델을 곧 폐기(deprecate) 한다고 통보함
      3.x는 여전히 Preview라 혼란스러움
    • Anthropic도 버전 체계가 엉망임
      Opus, Sonnet, Haiku 간 버전이 제각각이고, 가격 구조도 복잡함
      결국 모든 회사가 비슷한 문제를 겪고 있음
    • 매달 더 나은 모델이 나오는데, 굳이 같은 모델을 고집할 이유가 없음
      API만 바꾸면 쉽게 전환할 수 있는 시대임
  • GPT‑5.4의 핵심은 1M 토큰 컨텍스트 윈도우
    공식 가격표 기준으로 200k 이상에도 추가 요금이 없음
    Opus 4.6보다 훨씬 저렴하지만, 실제로 1M 컨텍스트가 실질적 이득을 줄지는 의문임
    업데이트된 문서에 따르면 GPT‑5.3‑Codex를 대체함

    • 모델 문서에 따르면
      272K 토큰을 초과하면 입력 2배, 출력 1.5배 요금이 부과됨
    • 긴 컨텍스트 vs 압축(compaction) 은 늘 고민임
      토큰이 많을수록 비용과 지연이 늘어남
      OpenAI 내부 테스트에서는 짧은 컨텍스트가 대부분의 경우 더 효율적이었음
      (직원 코멘트)
    • Claude는 같은 작업에 필요한 토큰 수가 적기 때문에
      작업당 비용으로 비교해야 함
      실제로는 GPT‑5.x와 Opus의 비용이 비슷한 수준임
      벤치마크보다 실제 업무 결과가 더 중요함
    • 대부분 공식 가격표만 보지만
      실제로는 개발자 문서가 더 정확함
      272k 이하까지만 기본 요금이 적용됨
    • 컨텍스트 부패(context rot) 문제는 여전히 존재하지만
      Anthropic은 긴 작업에 대한 RL로 이를 완화하려는 계획을 갖고 있음
  • GPT‑5.4를 몇 번 써봤는데, 글의 명료함과 분석력이 인상적이었음
    5.3‑Codex보다 훨씬 자연스럽고 인간적인 문체를 사용함
    내 AGENTS.md가 단순한 언어를 요구해서일 수도 있음

    • 하지만 내 코드베이스에서는 중요한 데이터 손실 버그를 놓쳤음
    • 매번 새 모델이 나올 때마다 “이전 모델은 원시적이었다”는 글이 올라오는데
      그 패턴이 반복되는 것 같음
    • 나도 Opus에서 Codex로 옮겼는데, 추론은 느리지만 정확도가 높아졌음
      Claude는 상대적으로 느슨한 느낌임
    • 같은 AGENTS.md 파일을 사용하면 동일한 결과가 나올지 궁금함
    • 최신 연구에 따르면 AGENTS.md를 포함하면 오히려 성능이 저하된다고 함
  • OpenAI가 8개월 동안 버전 넘버링 혼란을 피하다가 결국 다시 복잡해졌음
    GPT‑5.3 Instant, GPT‑5.4 Thinking 등 이름이 섞여 있음

    • GPT‑5.3 Instant와 gpt‑5.3‑chat의 차이가 헷갈림
    • 사실 5.3 Codex도 있었음
    • Instant 모델은 요약이나 검색엔 좋지만, 복잡한 대화에서는 맥락을 잃기 쉬움
      용도에 맞게 써야 함
  • 블로그의 RPG 게임 데모가 인상적이었음
    “Battle Brothers”와 비슷한 수준으로, 자율적 엔지니어링의 좋은 예시였음

    • AI가 한 번에 롤러코스터 타이쿤 클론을 만든 게 놀라움
      이런 속도라면 저코드 툴 시장이 위협받을 수도 있음
    • 하지만 실제로는 단순한 데모 수준으로 보였음
    • 아마 Playwright 통합 덕분일 것 같음
      Codex가 웹앱을 시각적으로 디버깅하고 테스트할 수 있게 되었음
  • 군사 및 보안 분야에서도 이 모델을 활용할 듯함

    • 폭력 관련 안전 점수가 91%에서 83%로 떨어졌다고 함
    • 혹시 군사 벤치마크(ArtificialSuperSoldier 등) 결과도 공개했는지 궁금함
    • Claude 모델처럼 Anthropic 방식으로도 쓰일 수 있을까 궁금함
    • 광고 업계도 이 기술을 탐낼 것 같음
    • 군에서는 여전히 4.1 버전을 쓰고 있어서, 업그레이드엔 시간이 걸릴 듯함
  • GPT‑5.4가 브라우저 스크린샷을 해석해 Gmail UI를 클릭하며 이메일을 보내는 기능을 시연했음
    하지만 이런 방식보다는 Gmail API를 쓰는 게 더 효율적이라고 생각함

    • 대부분의 웹사이트는 API가 없거나 문서화가 부실
      스크린샷은 문서, API, 탐색 수단을 한 번에 제공함
    • 인간 손에 맞춘 도구를 쓰기 위해 휴머노이드 로봇을 만드는 느낌임
      성공하면 범용성이 커지지만, API 기반 접근도 여전히 유효함
    • 많은 서비스가 API를 공개할 의지가 없음
      이 방식은 그런 제약을 우회할 수 있음
    • 컴퓨터 사용 능력을 익힌 모델은 어디서든 쓸 수 있지만
      API만 다루는 모델은 그렇지 않음
      경제적 확산 측면에서 전자가 더 가치 있음
    • Wikipedia가 API보다 웹 스크래핑을 더 많이 당하는 이유와 비슷함
      결국 편의성이 우선임
  • 내 일상적인 코딩에서는 상위 3개 코딩 에이전트로 충분함
    SWE‑bench Verified 기준 GPT‑5.2 Codex는 72.8점, GPT‑5.4는 약 2점 상승
    큰 도약은 아니지만 개선은 있음
    SWE‑bench에서 Claude 4.6 Opus가 75.6점으로 여전히 앞섬
    다만 Codex CLI의 에이전트 기능이 많이 향상되어 Claude Code 수준에 근접함

  • OpenAI가 모델을 통합하더니 다시 세분화된 버전을 내놓는 게 혼란스러움
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro 등 너무 많음
    그래도 1M 컨텍스트 윈도우 지원은 반가움

    • 나는 이런 선택지가 있는 게 좋음
      필요에 따라 고를 수 있고, 일반 사용자는 여전히 Auto 모드를 쓰면 됨
    • Auto 옵션이 여전히 존재하므로 큰 문제는 아님
    • 아마 백엔드에서 GPT‑5가 여러 모델을 자동 라우팅하는 구조일 것 같음