GPT-5: 주요 특징, 가격 및 시스템 카드

(simonwillison.net)

3P by GN⁺ 4달전 | ★ favorite | 댓글 1개

GPT-5는 실시간 라우터가 대화 맥락에 맞춰 모델을 바꾸는 통합 시스템으로 동작하고, API에서는 Regular·Mini·Nano 3종에 Minimal·Low·Medium·High 4단계 추론 레벨을 제공함
입력 272,000 토큰과 출력 128,000 토큰 한도를 지원하며, 입력은 텍스트·이미지, 출력은 텍스트 전용을 지원
가격은 공격적 책정으로 GPT-4o 대비 입력 단가가 절반이고, 최근 몇 분 내 재사용 입력에 토큰 캐싱 90% 할인이 적용
시스템 카드에서는 환각 감소, 지시 이행 향상, 아첨 최소화와 함께 Safe‑Completions 훈련으로 이진 거부 대신 안전한 범위의 응답을 지향
보안 측면에서는 프롬프트 인젝션 대비가 개선되었으나 k=10 시도 기준 56.8% 성공률로 미해결 영역이며, API에서는 reasoning 요약과 reasoning_effort=minimal 옵션으로 추론 토큰 흐름을 제어 가능함

GPT-5 : 주요 특징, 가격, 시스템 카드 분석

작성자 Simon Willison은 2주간 프리뷰 접근 권한으로 GPT‑5를 일상적으로 사용해보았고, 극적 도약은 아니지만 전반적으로 매우 유능하며 실수 빈도가 드물고 일관된 기본값 모델로 쓰기 좋다는 인상을 받았음
본 글은 연재의 첫 편으로 핵심 특성, 가격, 시스템 카드에서 읽어낼 수 있는 사항을 정리함

Key model characteristics

ChatGPT 환경에서 GPT‑5는 빠른 일반 모델과 깊은 추론 모델을 통합하고, 대화 유형·난이도·도구 필요성·명시적 의도에 따라 실시간 라우터가 적합한 모델을 선택하는 하이브리드 구성으로 동작함

“real‑time router가 대화 유형, 복잡도, 도구 필요, ‘think hard’ 같은 의도 신호에 따라 모델을 골라 쓰며, 사용 한도 소진 시에는 각 모델의 mini 버전이 대체함”이라는 설명이 시스템 카드에 포함
API에서는 Regular·Mini·Nano 3종으로 단순화되며, 각 모델은 Minimal·Low·Medium·High의 4단계 추론 레벨을 지원함
컨텍스트 한도는 입력 272,000 토큰, 출력 128,000 토큰이며, 보이지 않는 추론 토큰도 출력 토큰으로 계산됨
입출력은 텍스트·이미지 입력, 텍스트 출력 전용 구성이며, 지식 컷오프는 GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
전체 GPT‑5 사용에서 정확·침착한 응답 성향을 체감했으며, 다른 모델로 재시도할 유인이 거의 없었음

Position in the OpenAI model family

시스템 카드의 매핑 표에 따르면 기존 라인업은 GPT‑5 계열로 대체되는 포지셔닝을 가짐
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
thinking‑pro는 현재 ChatGPT의 “GPT‑5 Pro” 로 표기되어 월 $200 티어에서만 제공되며, parallel test‑time compute를 사용
오디오 입출력과 이미지 생성은 여전히 GPT‑4o Audio/Realtime, GPT Image 1/DALL‑E가 담당한다는 기능 경계가 유지됨

Pricing is aggressively competitive

가격은 공격적으로 책정됨
- GPT‑5: 입력 $1.25/백만, 출력 $10/백만
- GPT‑5 Mini: 입력 $0.25/백만, 출력 $2.00/백만
- GPT‑5 Nano: 입력 $0.05/백만, 출력 $0.40/백만
GPT‑4o 대비 입력 단가가 절반이고 출력 단가는 동일함
추론 토큰은 출력 토큰으로 청구되므로, 같은 프롬프트라도 추론 레벨에 따라 총 비용이 달라짐
토큰 캐싱 90% 할인이 제공되어, 대화 맥락 재전송이 잦은 채팅 UI에서 비용 절감 효과가 큼
경쟁사 비교 표에서는 Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro 등이 입력 $2.5~$15/백만, 출력 $10~$75/백만 수준으로 제시되어, GPT‑5 계열의 단가 우위
표 자동 정렬을 GPT‑5에 맡겼다가 가격 비교를 일부 잘못 정렬하는 사례를 겪었고, Python로 테이블을 구성해 정렬하자 문제가 해결됨

More notes from the system card

훈련 데이터 구성은 공개 웹, 제휴 데이터, 사용자·인간 트레이너 생성 데이터를 포함하며, 개인정보 축소 필터링을 적용했다는 원칙 수준의 설명
주요 개선 축으로 환각 감소, 지시 이행 향상, 아첨 최소화가 강조되고, ChatGPT의 흔한 3대 사용처로 writing·coding·health를 지목하여 해당 영역 성능 강화
Safe‑Completions는 이진 거부 대신 출력의 안전성에 초점을 두는 출력 중심 안전 훈련으로, 생물학·보안 등 이용자 의도 판별이 어려운 이중 용도 질의에 상세 위험을 줄이며 유익성을 보존
Sycophancy에 대해서는 생산 대화 분포를 반영한 평가와 보상 신호로 아첨적 동조 성향을 낮추는 사후 훈련을 수행
사실성 측면에서 브라우징 기본 활성과 함께, 도구 없이 내부 지식만으로 답할 때의 환각 빈도 감소를 목표로 훈련
기만·허언 방지를 위해 불가능한 작업에서 ‘불가’를 솔직히 인정하도록 보상 설계를 했고, 브라우징 등 도구를 고의로 비활성해 허상 응답을 억제하는 시뮬레이션 평가도 진행

Prompt injection in the system card

외부 레드팀 2곳이 시스템 수준 취약점과 커넥터 경로에 초점을 맞춰 프롬프트 인젝션 평가를 수행했다는 결과 포함
비교 차트에서 **gpt‑5‑thinking의 공격 성공률이 k=10 기준 56.8%**로, Claude 3.7/다수 다른 모델의 60~90%대보다 낮은 수치를 기록했으나, 여전히 절반 이상 관통되어 완전 해결과는 거리가 있음
결론적으로 모델 개선에도 불구하고 제품 설계 차원의 방어와 가드레일을 필수 전제로 볼 것을 권고

Thinking traces in the API

초기에 작성자는 추론 흔적 노출 불가로 알고 있었으나, Responses API에서 reasoning: { "summary": "auto" }를 통해 추론 요약을 받을 수 있음
해당 옵션 없이 깊은 추론 레벨에서는 가시 출력 이전에 상당한 추론 토큰이 소비되어 지연 체감이 있을 수 있고, reasoning_effort=minimal 설정으로 빠른 스트리밍 응답을 유도할 수 있음

And some SVGs of pelicans

작성자의 상시 SVG 벤치마크인 “자전거 타는 펠리컨” 생성에서 GPT‑5(기본 Medium 추론) 결과는 바이크 디테일과 형태 정확도가 뛰어나 가독성 높은 벡터를 보여줌
GPT‑5 Mini는 색·그라데이션 표현은 풍부하지만 펠리컨 목이 두 개로 생성되는 구조 오류 보임
GPT‑5 Nano는 자전거·펠리컨 형태가 단순화되어 기능적 요약 수준의 결과를 산출

실무 포인트 요약

모델 선택: Regular로 시작해 충분하면 Mini/Nano로 다운시프트, 깊은 문제엔 thinking 계열·높은 추론 레벨 고려 필요
비용 제어: 토큰 캐싱 90%, reasoning_effort=minimal, 짧은 시스템 프롬프트·요약된 컨텍스트로 출력 토큰·추론 토큰을 줄이는 전략이 유효
보안 설계: 프롬프트 인젝션은 아직 위험이므로 커넥터 권한 축소, 출력 검증, 안전 출력 템플릿 등 시스템적 방어 병행 필요
도메인 적용: writing·coding·health에서 환각·아첨 저감이 체감된다는 보고를 바탕으로, 업무 문서화·코드 리뷰·헬스케어 QA 같은 고위험 서술 작업에 브라우징+근거 포함 플로우를 기본값으로 설계 권장

▲

GN⁺ 4달전 [-]

Hacker News 의견

정말 멋지다고 생각하며 더 신뢰성이 높아진 것 같아 기쁨, 하지만 지난 2년간 사람들이 기대해온 GPT-5의 이미지를 생각하면, 세계관을 뒤집는 수준의 혁신이 아닌 점진적이고 안정적인 개선에 머무른 것이 조금 아쉬움. 순수하게 규모만 키우는 접근이 한계에 부딪힌 듯한 분위기도 느낌. 만약 단순히 컴퓨팅 자원만 더 투입하면 발전할 수 있었다면, OpenAI가 기존 방식의 사용자 라우팅 시스템을 조금씩 미세하게 조율해서 평균적인 인터랙션을 개선하는 데 시간 쓰지 않았을 것이라는 생각임. 나 역시 데이터/컴퓨팅만 늘리면 AGI가 도달할 수 있다는 주장에 회의적인 입장이었음. 전체적으로 산업 내 폐쇄성 강화와 발표에서 실질적 정보보다 마케팅 언어만 남은 듯한 분위기 때문에 현재 모델이 어떤 상태에 있는지 아무도 모른다는 느낌이 큰 문제로 보임. 대규모 투자에선 이는 어쩔 수 없는 일일 수도 있을 것임. 혹시 다음에 엄청난 모델이 공개될 가능성도 완전히 배제할 순 없음
- 진짜 조용한 혁신은 툴 활용과 멀티모달 능력에서 일어나고 있다고 생각함. 일반 지능은 점진적으로 변화 중이지만, 툴 멀티스텝 활용력과 실제 세상과의 상호작용이 1년 전과 비교해 극적으로 좋아짐. 이런 쪽의 피드백이 결국 더 뛰어난 지능으로 돌아올 거라고 기대함
- 규모 확장만이 능사는 아니라는 흐름, 과연 투자자들이 증거 갖고 이 방향을 주장해온 사람들에게 자금 지원하기 시작할지 궁금함. 왜 한 방향(LLM에서 AGI)만 고집하는지 이해 안 됨. 이미 대형 플레이어로 포화된 시장에서 굳이 또 하나의 LLM 스타트업에 투자할 필요가 없다고 봄. LLM이 언젠가 AGI에 도달한다 해도, 더 빠르고 저렴하게 도달할 방식이 얼마든지 나올 수 있음. 백업 플랜 없이 가는 것 역시 위험. 테크놀로지 S-curve(성장 곡선)이 AI에도 그대로 적용된다고 생각함. 정량적 이론에 더 익숙한 수학/과학 배경 친구들과 나 역시 규모 확장만이 답이라는 명제엔 의문을 가짐
- GPU가 각종 정보를 학습하고 다양한 태스크에 활용될 수 있음이 이제 입증된 것 같음. 하지만 실제 유용하게 사용하려면 각 문제에 대해 적용법을 고민하는 추가 노력이 무조건 필요함. 만약 GPT에 “1년 안에 1천 달러로 무조건 10억 달러 가치 스타트업 만들기” 물어서 답을 얻을 수 있었다면 이미 누군가 그렇게 했을 것임. 당분간은 결국 사람이 직접 땀 흘려야 할 것임. 당분간은 자주 발생하는 실수를 줄이는 쪽의 훈련이 현실적으로 의미 있다고 봄
- 성능이 4~7개월에 한 번씩 두 배가 되고 있다고 봄. 그 추세는 계속되고 있음. 이런 속도 자체가 이미 말도 안 되는 일이라고 생각함. 그 이상을 기대하는 것이 오히려 과대 광고에 휩쓸린 거라고 생각함. 1년에 2~3번 성능이 두 배로 뛰는 이런 상황이 정체라고는 전혀 생각하지 않음 관련 링크
- 사실, 점진적(performance perspective) 업그레이드지만 제품 단순화 관점에선 도약이라는 방향은 6개월 전부터도 거론된 GPT-5의 한 경로였음. 이제부터 AI 발전은 앞으로도 조금씩, 미세한 개선의 싸움이 될 것 같은 느낌
개인적으로는 OpenAI가 ‘환각 현상’(hallucination)이 현저히 줄었다고 주장하는 것에 혼란스러움. 내 경험상 Claude 4(소네트, 오푸스)도 아주 사소하거나 어려운 질문에서도 거의 매일 할루시네이션이 일어남. 아주 단순한 부분에서도 그렇기 때문임
- 발표 시연에서도 여러 번의 할루시네이션이 나왔음(Claude와 GPT 사용하면서 유료, 무료 버전 상관 없이 매번 발생). 안 보인다면 사실상 거짓말이거나 무능력하다고 생각함. LLM의 근본 문제는 인간의 선호도를 학습하다 보니, 숨겨진 오류(stealthy errors)에 최적화하게 된다는 점임. 나는 실패율이 낮아도 스텔스 실패를 일으키는 도구 사용에 매우 신중함. 이런 모델은 모든 일의 속도를 늦추고, 디버깅이 매우 힘들어짐. 예를 들어 파이썬 코드의 들여쓰기 오류처럼 겉으론 보이지 않는 버그가 생기는 것과 비슷함. 그런데 이런 소스 오류는 에러 메시지로 바로 원인을 잡을 수 있지만, LLM의 스텔스 오류는 그렇게 알 수 없어서 문제임. 결국 이런 부분은 “LGTM(Looks Good To Me)” 식으로 지나쳐버리는 문화를 촉진하는 것 같음
- “너 틀렸어”라는 한 마디만 해도 Claude나 ChatGPT는 바로 스스로 무너지면서 계속 할루시네이션을 반복하고, 맞고 틀림을 떠나 스스로 자신감 있게 주장할 줄 모르는 문제점이 있음
- Simon이 LLM을 오랜 기간 활용해왔기 때문에, 질문을 프레이밍할 때 할루시네이션이 덜 나오도록 직감을 익힌 것이라고 생각함
- 입력에 따라 다르다고 생각함. 내가 사용한 Claude 4는 할루시네이션이 정말 자주 발생했고, 특히 JSON을 생성할 때 문법상 오류가 많은 결과를 매우 확신에 차서 생성하는 경우가 많았음
“너 GPT5야?” “아니, 난 4o야, 5는 아직 안 나왔어.” “오늘 나왔대.” “아, 맞네, 난 GPT5야.” <i>4o의 무료 사용 한도에 도달했습니다</i>라는 식의 혼란, 현실과 모델 정보가 뒤섞이는 상황을 경험함
OpenAI의 공격적 가격 정책은 다소 의외라고 느낌. 만약 정말 경쟁자가 없다면 굳이 이런 수를 쓸 필요가 없음. 그만큼 경쟁이 치열해졌음을 의미한다고 생각함
- 앱 시장에서는 압도적으로 승리 중이지만, API 쪽은 오히려 anthropic에 밀리고 있음 관련 기사
- 최근 PRO 고객(나 포함)을 잃은 영향이 아닐까 싶음. PRO 모델이 PLUS 대비 10배의 가격 가치는 없었다고 생각함. z.ai 등 신규 경쟁자의 등장에 서비스 차별화가 어려워지는 중임
- 이번은 사실상 5% 정도의 개선이라고 느낌. Gemini 2.5 Pro와 가격 경쟁에서 밀릴 수 없어 어쩔 수 없는 선택이라고 봄. Cursor가 기본값을 바꿨다는 것도 그 영향이라고 생각함
- Nano 모델 5센트는 상당히 흥미로운 변화임. 이 덕에 Google도 최근 느리게 올려온 가격을 당분간 다시 인하하게 만들지도 모른다는 생각이 듦
- 단순히 더 많은 데이터가 필요해서 이런 정책을 내놓은 걸 수도 있다고 생각함
API에서 GPT-5가 regular, mini, nano 모델로 구성되고 각각 4단계 reasoning 레벨(minimal, low, medium, high)로 선택 가능하게 되면서, 기존 GPT 4.1에서 3가지 옵션(regular, mini, nano)만 있던 때보다 오히려 더 복잡해진 것이 아닌가 하는 고민이 있음. 이제는 미니 모델 하나만 해도 minimal부터 high까지 4단계가 있으니까 총 8개 옵션에다, 이럴 때마다 과연 프롬프트 조정이 나은지, 버전 또는 reasoning level 교체가 나은지 매번 고민하게 된다는 게 현실임
- 실제로는 reasoning level별로 이미 o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low 등 여러 옵션이 추가되어 있었음. 오히려 GPT-5 방식이 더 단순해 보임
- 각 모델별로 n=1,2,3, reasoning 레벨 m=0,1,2,3 방식이니 오히려 구조적이라고 생각함. 어떤 조합이 더 높은 수준으로 올라가는지 직관적으로 알 수 있음
- “더 간단하다”는 게, 기존엔 chat 서비스나 API의 chat-optimized 모델이 heuristics(기계적 추측)에 따라 reasoning level과 모델을 바꿔주는 하네스를 썼는데, API에서는 지금 사용자가 직접 모델 종류와 reasoning effort를 선택하는 clear mental model을 갖게 됨을 의미한다고 해석함. 선택지는 많지만 선택 방식이 더 명확해진 셈임
- 결국 OpenAI는 토큰 단위로 가격을 받는 구조이기 때문에 여러 버전을 많이 시도해 볼 수밖에 없음
파라미터(temperature, top-p) 직접 조절 기능이 reasoning 모델(GPT-5 포함)에서 빠진 이유를 궁금해함. 작은 태스크는 일관성이 중요한데 이 기능 잃으면 대응이 어렵고, API에서 이 옵션을 세밀하게 제어하는 게 사용자가 매우 중요하다고 느꼈음
- 샘플러 세팅이 모두 안전성과 얼라인먼트에 부정적 영향을 끼치기 때문임. 그래서 top_p/top_k만 허용하고 tfs, min_p, top_n sigma 등은 배제함. temperature도 0~2 범위로 임의로 제한하는 이유도 동일함. 오픈소스 쪽이 샘플러에선 오히려 더 앞서가고 있다고 생각함. 그런 상황에서도 모델 성능을 이렇게 뽑아내는 점은 OpenAI의 기술력이 왜 놀라운지 보여주는 지점임
수십억 달러 가치의 기업임에도 불구하고, 채용, 비즈니스, 교육 등 다양한 실사용 영역이 있는데도 오직 BBQ같은 인위적인 벤치마크 한 가지만으로 모델의 공정성을 평가하는 점이 아쉬움
pelican이 자전거를 타는 SVG 이미지는 여전히 AI에겐 힘든 문제라는 점이 우스우면서도 흥미로움
- 직접 텍스트 에디터로 pelican이 자전거 타는 SVG를 그릴 수 있냐고 묻고 싶음. 실제로는 사람도 그렇게 쉽지 않음
이전과 다르게 툴을 잘 활용해서 컨텍스트를 모으도록 훈련된 모습임. 실제로 4.1과 o3 대비 첫 턴에 무려 6가지 카테고리별로 결과를 단숨에 불러오는 등 꽤 멋진 방식으로 해결함. 툴 호출이 늘어나면 토큰도 더 많이 쓰지만, 이번의 공격적 가격 정책 덕에 그게 큰 문제가 되지 않을 듯함. 프롬프트 설계만 잘하면 툴 사용 빈도도 줄일 수 있음 관련 예시
Simon의 간결하고 꼼꼼한 리뷰 덕분에 실제 결과를 이해하는 데 정말 도움이 됨
Claude와 o3도 올해 모델에선 환각 현상이 훨씬 덜한 것 같다는 의견에, 작성자가 포스트의 해당 부분에 본인 의도를 명확히 추가해서 설명을 보완함

답변달기