# GPT-5: 주요 특징, 가격 및 시스템 카드

> Clean Markdown view of GeekNews topic #22390. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22390](https://news.hada.io/topic?id=22390)
- GeekNews Markdown: [https://news.hada.io/topic/22390.md](https://news.hada.io/topic/22390.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-08-08T07:44:39+09:00
- Updated: 2025-08-08T07:44:39+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2025/Aug/7/gpt-5/)
- Points: 3
- Comments: 1

## Summary

GPT-5는 **실시간 라우터**와 **통합 시스템** 구조를 통해 **Regular·Mini·Nano**로 구분되는 세 가지 모델 타입과 **Minimal·Low·Medium·High**의 4단계 추론 레벨을 지원하며, **입출력 토큰 한도**와 **텍스트·이미지 입력** 기능, 그리고 **공격적 가격 정책** 등으로 다양한 활용과 비용 효율성을 제공합니다. **reasoning 요약** 및 **reasoning_effort** 옵션 등 세밀한 **추론 제어 기능**도 API에 포함되어, 실질적 서비스 적용 시 **비용과 성능**, **안전성** 모두를 균형 있게 고려해야 할 모델로 평가받고 있습니다.

## Topic Body

- GPT-5는 **실시간 라우터**가 대화 맥락에 맞춰 모델을 바꾸는 **통합 시스템**으로 동작하고, API에서는 **Regular·Mini·Nano** 3종에 **Minimal·Low·Medium·High** 4단계 추론 레벨을 제공함  
- 입력 **272,000 토큰**과 출력 **128,000 토큰** 한도를 지원하며, 입력은 **텍스트·이미지**, 출력은 **텍스트 전용**을 지원  
- 가격은 **공격적 책정**으로 GPT-4o 대비 입력 단가가 절반이고, 최근 몇 분 내 재사용 입력에 **토큰 캐싱 90% 할인**이 적용  
- 시스템 카드에서는 **환각 감소**, **지시 이행 향상**, **아첨 최소화**와 함께 **Safe‑Completions** 훈련으로 이진 거부 대신 안전한 범위의 응답을 지향  
- 보안 측면에서는 **프롬프트 인젝션** 대비가 개선되었으나 k=10 시도 기준 56.8% 성공률로 미해결 영역이며, API에서는 **reasoning 요약**과 **reasoning\_effort=minimal** 옵션으로 추론 토큰 흐름을 제어 가능함  
  
---  
  
### GPT-5 : 주요 특징, 가격, 시스템 카드 분석  
  
- 작성자 Simon Willison은 **2주간 프리뷰 접근 권한**으로 **GPT‑5**를 일상적으로 사용해보았고, **극적 도약은 아니지만 전반적으로 매우 유능**하며 실수 빈도가 드물고 일관된 **기본값 모델**로 쓰기 좋다는 인상을 받았음  
- 본 글은 연재의 첫 편으로 **핵심 특성**, **가격**, **시스템 카드**에서 읽어낼 수 있는 사항을 정리함  
  
### Key model characteristics  
  
- ChatGPT 환경에서 GPT‑5는 **빠른 일반 모델**과 **깊은 추론 모델**을 통합하고, **대화 유형·난이도·도구 필요성·명시적 의도**에 따라 **실시간 라우터**가 적합한 모델을 선택하는 **하이브리드 구성**으로 동작함  
  > “**real‑time router**가 대화 유형, 복잡도, 도구 필요, ‘think hard’ 같은 의도 신호에 따라 모델을 골라 쓰며, 사용 한도 소진 시에는 각 모델의 **mini** 버전이 대체함”이라는 설명이 시스템 카드에 포함  
- API에서는 **Regular·Mini·Nano** 3종으로 단순화되며, 각 모델은 **Minimal·Low·Medium·High**의 **4단계 추론 레벨**을 지원함  
- 컨텍스트 한도는 **입력 272,000 토큰**, **출력 128,000 토큰**이며, **보이지 않는 추론 토큰**도 출력 토큰으로 계산됨  
- 입출력은 **텍스트·이미지 입력**, **텍스트 출력 전용** 구성이며, **지식 컷오프**는 **GPT‑5: 2024‑09‑30**, **Mini/Nano: 2024‑05‑30**  
- **전체 GPT‑5** 사용에서 **정확·침착한 응답 성향**을 체감했으며, **다른 모델로 재시도할 유인이 거의 없었음**  
  
### Position in the OpenAI model family  
  
- 시스템 카드의 매핑 표에 따르면 기존 라인업은 **GPT‑5 계열로 대체**되는 포지셔닝을 가짐  
  * GPT‑4o → **gpt‑5‑main**, GPT‑4o‑mini → **gpt‑5‑main‑mini**  
  * OpenAI o3 → **gpt‑5‑thinking**, o4‑mini → **gpt‑5‑thinking‑mini**  
  * GPT‑4.1‑nano → **gpt‑5‑thinking‑nano**, o3 Pro → **gpt‑5‑thinking‑pro**  
- **thinking‑pro**는 현재 **ChatGPT의 “GPT‑5 Pro”** 로 표기되어 **월 \$200 티어**에서만 제공되며, **parallel test‑time compute**를 사용  
- **오디오 입출력**과 **이미지 생성**은 여전히 **GPT‑4o Audio/Realtime**, **GPT Image 1/DALL‑E**가 담당한다는 **기능 경계**가 유지됨  
  
### Pricing is aggressively competitive  
  
- 가격은 **공격적**으로 책정됨  
  * **GPT‑5**: 입력 **\$1.25/백만**, 출력 **\$10/백만**  
  * **GPT‑5 Mini**: 입력 **\$0.25/백만**, 출력 **\$2.00/백만**  
  * **GPT‑5 Nano**: 입력 **\$0.05/백만**, 출력 **\$0.40/백만**  
- **GPT‑4o 대비 입력 단가가 절반**이고 출력 단가는 동일함  
- **추론 토큰**은 **출력 토큰으로 청구**되므로, 같은 프롬프트라도 **추론 레벨**에 따라 **총 비용이 달라짐**  
- **토큰 캐싱 90% 할인**이 제공되어, **대화 맥락 재전송**이 잦은 **채팅 UI**에서 **비용 절감 효과**가 큼  
- 경쟁사 비교 표에서는 **Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro** 등이 **입력 \$2.5\~\$15/백만**, **출력 \$10\~\$75/백만** 수준으로 제시되어, **GPT‑5 계열의 단가 우위**  
- 표 **자동 정렬을 GPT‑5에 맡겼다가 가격 비교를 일부 잘못 정렬**하는 사례를 겪었고, **Python로 테이블을 구성해 정렬**하자 문제가 해결됨  
  
### More notes from the system card  
  
- **훈련 데이터 구성**은 **공개 웹**, **제휴 데이터**, **사용자·인간 트레이너 생성 데이터**를 포함하며, **개인정보 축소 필터링**을 적용했다는 **원칙 수준**의 설명  
- **주요 개선 축**으로 **환각 감소**, **지시 이행 향상**, **아첨 최소화**가 강조되고, **ChatGPT의 흔한 3대 사용처**로 **writing·coding·health**를 지목하여 해당 영역 **성능 강화**  
- **Safe‑Completions**는 **이진 거부** 대신 **출력의 안전성에 초점**을 두는 **출력 중심 안전 훈련**으로, **생물학·보안** 등 **이용자 의도 판별이 어려운 이중 용도** 질의에 **상세 위험을 줄이며 유익성을 보존**  
- **Sycophancy**에 대해서는 **생산 대화 분포를 반영한 평가와 보상 신호**로 **아첨적 동조 성향**을 낮추는 **사후 훈련**을 수행  
- **사실성** 측면에서 **브라우징 기본 활성**과 함께, **도구 없이 내부 지식만으로 답할 때의 환각 빈도 감소**를 목표로 훈련  
- **기만·허언 방지**를 위해 **불가능한 작업에서 ‘불가’를 솔직히 인정**하도록 **보상 설계**를 했고, **브라우징 등 도구를 고의로 비활성**해 **허상 응답을 억제**하는 **시뮬레이션 평가**도 진행  
  
### Prompt injection in the system card  
  
- **외부 레드팀 2곳**이 **시스템 수준 취약점**과 **커넥터 경로**에 초점을 맞춰 **프롬프트 인젝션 평가**를 수행했다는 결과 포함  
- 비교 차트에서 \*\*gpt‑5‑thinking의 공격 성공률이 k=10 기준 56.8%\*\*로, **Claude 3.7/다수 다른 모델의 60\~90%대**보다 **낮은 수치**를 기록했으나, **여전히 절반 이상 관통**되어 **완전 해결과는 거리**가 있음  
- 결론적으로 **모델 개선에도 불구**하고 **제품 설계 차원의 방어**와 **가드레일**을 **필수 전제**로 볼 것을 권고  
  
### Thinking traces in the API  
  
- 초기에 작성자는 **추론 흔적 노출 불가**로 알고 있었으나, **Responses API**에서 `reasoning: { "summary": "auto" }`를 통해 **추론 요약**을 받을 수 있음  
- 해당 옵션 없이 **깊은 추론 레벨**에서는 **가시 출력 이전에 상당한 추론 토큰**이 소비되어 **지연 체감**이 있을 수 있고, **`reasoning_effort=minimal`** 설정으로 **빠른 스트리밍 응답**을 유도할 수 있음  
  
### And some SVGs of pelicans  
  
- 작성자의 상시 **SVG 벤치마크**인 “**자전거 타는 펠리컨**” 생성에서 **GPT‑5(기본 Medium 추론)** 결과는 **바이크 디테일과 형태 정확도**가 뛰어나 **가독성 높은 벡터**를 보여줌  
- **GPT‑5 Mini**는 **색·그라데이션 표현**은 풍부하지만 **펠리컨 목이 두 개**로 생성되는 **구조 오류** 보임  
- **GPT‑5 Nano**는 **자전거·펠리컨 형태가 단순화**되어 **기능적 요약 수준**의 결과를 산출   
  
#### 실무 포인트 요약  
  
- **모델 선택**: **Regular**로 시작해 충분하면 **Mini/Nano**로 **다운시프트**, 깊은 문제엔 **thinking 계열·높은 추론 레벨** 고려 필요  
- **비용 제어**: **토큰 캐싱 90%**, **reasoning\_effort=minimal**, **짧은 시스템 프롬프트·요약된 컨텍스트**로 **출력 토큰·추론 토큰**을 줄이는 전략이 유효  
- **보안 설계**: **프롬프트 인젝션**은 **아직 위험**이므로 **커넥터 권한 축소**, **출력 검증**, **안전 출력 템플릿** 등 **시스템적 방어** 병행 필요  
- **도메인 적용**: **writing·coding·health**에서 **환각·아첨 저감**이 체감된다는 보고를 바탕으로, **업무 문서화·코드 리뷰·헬스케어 QA** 같은 **고위험 서술 작업**에 **브라우징+근거 포함** 플로우를 기본값으로 설계 권장

## Comments


### Comment 42260

- Author: neo
- Created: 2025-08-08T07:44:40+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44827794) 
- 정말 멋지다고 생각하며 더 신뢰성이 높아진 것 같아 기쁨, 하지만 지난 2년간 사람들이 기대해온 GPT-5의 이미지를 생각하면, 세계관을 뒤집는 수준의 혁신이 아닌 점진적이고 안정적인 개선에 머무른 것이 조금 아쉬움. 순수하게 규모만 키우는 접근이 한계에 부딪힌 듯한 분위기도 느낌. 만약 단순히 컴퓨팅 자원만 더 투입하면 발전할 수 있었다면, OpenAI가 기존 방식의 사용자 라우팅 시스템을 조금씩 미세하게 조율해서 평균적인 인터랙션을 개선하는 데 시간 쓰지 않았을 것이라는 생각임. 나 역시 데이터/컴퓨팅만 늘리면 AGI가 도달할 수 있다는 주장에 회의적인 입장이었음. 전체적으로 산업 내 폐쇄성 강화와 발표에서 실질적 정보보다 마케팅 언어만 남은 듯한 분위기 때문에 현재 모델이 어떤 상태에 있는지 아무도 모른다는 느낌이 큰 문제로 보임. 대규모 투자에선 이는 어쩔 수 없는 일일 수도 있을 것임. 혹시 다음에 엄청난 모델이 공개될 가능성도 완전히 배제할 순 없음

  - 진짜 조용한 혁신은 툴 활용과 멀티모달 능력에서 일어나고 있다고 생각함. 일반 지능은 점진적으로 변화 중이지만, 툴 멀티스텝 활용력과 실제 세상과의 상호작용이 1년 전과 비교해 극적으로 좋아짐. 이런 쪽의 피드백이 결국 더 뛰어난 지능으로 돌아올 거라고 기대함

  - 규모 확장만이 능사는 아니라는 흐름, 과연 투자자들이 증거 갖고 이 방향을 주장해온 사람들에게 자금 지원하기 시작할지 궁금함. 왜 한 방향(LLM에서 AGI)만 고집하는지 이해 안 됨. 이미 대형 플레이어로 포화된 시장에서 굳이 또 하나의 LLM 스타트업에 투자할 필요가 없다고 봄. LLM이 언젠가 AGI에 도달한다 해도, 더 빠르고 저렴하게 도달할 방식이 얼마든지 나올 수 있음. 백업 플랜 없이 가는 것 역시 위험. 테크놀로지 S-curve(성장 곡선)이 AI에도 그대로 적용된다고 생각함. 정량적 이론에 더 익숙한 수학/과학 배경 친구들과 나 역시 규모 확장만이 답이라는 명제엔 의문을 가짐

  - GPU가 각종 정보를 학습하고 다양한 태스크에 활용될 수 있음이 이제 입증된 것 같음. 하지만 실제 유용하게 사용하려면 각 문제에 대해 적용법을 고민하는 추가 노력이 무조건 필요함. 만약 GPT에 “1년 안에 1천 달러로 무조건 10억 달러 가치 스타트업 만들기” 물어서 답을 얻을 수 있었다면 이미 누군가 그렇게 했을 것임. 당분간은 결국 사람이 직접 땀 흘려야 할 것임. 당분간은 자주 발생하는 실수를 줄이는 쪽의 훈련이 현실적으로 의미 있다고 봄

  - 성능이 4~7개월에 한 번씩 두 배가 되고 있다고 봄. 그 추세는 계속되고 있음. 이런 속도 자체가 이미 말도 안 되는 일이라고 생각함. 그 이상을 기대하는 것이 오히려 과대 광고에 휩쓸린 거라고 생각함. 1년에 2~3번 성능이 두 배로 뛰는 이런 상황이 정체라고는 전혀 생각하지 않음 [관련 링크](https://metr.github.io/autonomy-evals-guide/gpt-5-report/)

  - 사실, 점진적(performance perspective) 업그레이드지만 제품 단순화 관점에선 도약이라는 방향은 6개월 전부터도 거론된 GPT-5의 한 경로였음. 이제부터 AI 발전은 앞으로도 조금씩, 미세한 개선의 싸움이 될 것 같은 느낌

- 개인적으로는 OpenAI가 ‘환각 현상’(hallucination)이 현저히 줄었다고 주장하는 것에 혼란스러움. 내 경험상 Claude 4(소네트, 오푸스)도 아주 사소하거나 어려운 질문에서도 거의 매일 할루시네이션이 일어남. 아주 단순한 부분에서도 그렇기 때문임

  - 발표 시연에서도 여러 번의 할루시네이션이 나왔음(Claude와 GPT 사용하면서 유료, 무료 버전 상관 없이 매번 발생). 안 보인다면 사실상 거짓말이거나 무능력하다고 생각함. LLM의 근본 문제는 인간의 선호도를 학습하다 보니, 숨겨진 오류(stealthy errors)에 최적화하게 된다는 점임. 나는 실패율이 낮아도 스텔스 실패를 일으키는 도구 사용에 매우 신중함. 이런 모델은 모든 일의 속도를 늦추고, 디버깅이 매우 힘들어짐. 예를 들어 파이썬 코드의 들여쓰기 오류처럼 겉으론 보이지 않는 버그가 생기는 것과 비슷함. 그런데 이런 소스 오류는 에러 메시지로 바로 원인을 잡을 수 있지만, LLM의 스텔스 오류는 그렇게 알 수 없어서 문제임. 결국 이런 부분은 “LGTM(Looks Good To Me)” 식으로 지나쳐버리는 문화를 촉진하는 것 같음

  - “너 틀렸어”라는 한 마디만 해도 Claude나 ChatGPT는 바로 스스로 무너지면서 계속 할루시네이션을 반복하고, 맞고 틀림을 떠나 스스로 자신감 있게 주장할 줄 모르는 문제점이 있음

  - Simon이 LLM을 오랜 기간 활용해왔기 때문에, 질문을 프레이밍할 때 할루시네이션이 덜 나오도록 직감을 익힌 것이라고 생각함

  - 입력에 따라 다르다고 생각함. 내가 사용한 Claude 4는 할루시네이션이 정말 자주 발생했고, 특히 JSON을 생성할 때 문법상 오류가 많은 결과를 매우 확신에 차서 생성하는 경우가 많았음

- “너 GPT5야?” “아니, 난 4o야, 5는 아직 안 나왔어.” “오늘 나왔대.” “아, 맞네, 난 GPT5야.” &lt;i&gt;4o의 무료 사용 한도에 도달했습니다&lt;/i&gt;라는 식의 혼란, 현실과 모델 정보가 뒤섞이는 상황을 경험함

- OpenAI의 공격적 가격 정책은 다소 의외라고 느낌. 만약 정말 경쟁자가 없다면 굳이 이런 수를 쓸 필요가 없음. 그만큼 경쟁이 치열해졌음을 의미한다고 생각함

  - 앱 시장에서는 압도적으로 승리 중이지만, API 쪽은 오히려 anthropic에 밀리고 있음 [관련 기사](https://finance.yahoo.com/news/enterprise-llm-spend-reaches-...)

  - 최근 PRO 고객(나 포함)을 잃은 영향이 아닐까 싶음. PRO 모델이 PLUS 대비 10배의 가격 가치는 없었다고 생각함. z.ai 등 신규 경쟁자의 등장에 서비스 차별화가 어려워지는 중임

  - 이번은 사실상 5% 정도의 개선이라고 느낌. Gemini 2.5 Pro와 가격 경쟁에서 밀릴 수 없어 어쩔 수 없는 선택이라고 봄. Cursor가 기본값을 바꿨다는 것도 그 영향이라고 생각함

  - Nano 모델 5센트는 상당히 흥미로운 변화임. 이 덕에 Google도 최근 느리게 올려온 가격을 당분간 다시 인하하게 만들지도 모른다는 생각이 듦

  - 단순히 더 많은 데이터가 필요해서 이런 정책을 내놓은 걸 수도 있다고 생각함

- API에서 GPT-5가 regular, mini, nano 모델로 구성되고 각각 4단계 reasoning 레벨(minimal, low, medium, high)로 선택 가능하게 되면서, 기존 GPT 4.1에서 3가지 옵션(regular, mini, nano)만 있던 때보다 오히려 더 복잡해진 것이 아닌가 하는 고민이 있음. 이제는 미니 모델 하나만 해도 minimal부터 high까지 4단계가 있으니까 총 8개 옵션에다, 이럴 때마다 과연 프롬프트 조정이 나은지, 버전 또는 reasoning level 교체가 나은지 매번 고민하게 된다는 게 현실임

  - 실제로는 reasoning level별로 이미 o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low 등 여러 옵션이 추가되어 있었음. 오히려 GPT-5 방식이 더 단순해 보임

  - 각 모델별로 n=1,2,3, reasoning 레벨 m=0,1,2,3 방식이니 오히려 구조적이라고 생각함. 어떤 조합이 더 높은 수준으로 올라가는지 직관적으로 알 수 있음

  - “더 간단하다”는 게, 기존엔 chat 서비스나 API의 chat-optimized 모델이 heuristics(기계적 추측)에 따라 reasoning level과 모델을 바꿔주는 하네스를 썼는데, API에서는 지금 사용자가 직접 모델 종류와 reasoning effort를 선택하는 clear mental model을 갖게 됨을 의미한다고 해석함. 선택지는 많지만 선택 방식이 더 명확해진 셈임

  - 결국 OpenAI는 토큰 단위로 가격을 받는 구조이기 때문에 여러 버전을 많이 시도해 볼 수밖에 없음

- 파라미터(temperature, top-p) 직접 조절 기능이 reasoning 모델(GPT-5 포함)에서 빠진 이유를 궁금해함. 작은 태스크는 일관성이 중요한데 이 기능 잃으면 대응이 어렵고, API에서 이 옵션을 세밀하게 제어하는 게 사용자가 매우 중요하다고 느꼈음

  - 샘플러 세팅이 모두 안전성과 얼라인먼트에 부정적 영향을 끼치기 때문임. 그래서 top_p/top_k만 허용하고 tfs, min_p, top_n sigma 등은 배제함. temperature도 0~2 범위로 임의로 제한하는 이유도 동일함. 오픈소스 쪽이 샘플러에선 오히려 더 앞서가고 있다고 생각함. 그런 상황에서도 모델 성능을 이렇게 뽑아내는 점은 OpenAI의 기술력이 왜 놀라운지 보여주는 지점임

- 수십억 달러 가치의 기업임에도 불구하고, 채용, 비즈니스, 교육 등 다양한 실사용 영역이 있는데도 오직 BBQ같은 인위적인 벤치마크 한 가지만으로 모델의 공정성을 평가하는 점이 아쉬움

- pelican이 자전거를 타는 SVG 이미지는 여전히 AI에겐 힘든 문제라는 점이 우스우면서도 흥미로움

  - 직접 텍스트 에디터로 pelican이 자전거 타는 SVG를 그릴 수 있냐고 묻고 싶음. 실제로는 사람도 그렇게 쉽지 않음

- 이전과 다르게 툴을 잘 활용해서 컨텍스트를 모으도록 훈련된 모습임. 실제로 4.1과 o3 대비 첫 턴에 무려 6가지 카테고리별로 결과를 단숨에 불러오는 등 꽤 멋진 방식으로 해결함. 툴 호출이 늘어나면 토큰도 더 많이 쓰지만, 이번의 공격적 가격 정책 덕에 그게 큰 문제가 되지 않을 듯함. 프롬프트 설계만 잘하면 툴 사용 빈도도 줄일 수 있음 [관련 예시](https://promptslice.com/share/b-2ap_rfjeJgIQsG)

- Simon의 간결하고 꼼꼼한 리뷰 덕분에 실제 결과를 이해하는 데 정말 도움이 됨

- Claude와 o3도 올해 모델에선 환각 현상이 훨씬 덜한 것 같다는 의견에, 작성자가 포스트의 해당 부분에 본인 의도를 명확히 추가해서 설명을 보완함