GPT-5 공개
(openai.com)- GPT-5는 코딩, 수학, 글쓰기, 건강, 시각 인식 등 전 분야에서 기존 모델을 뛰어넘는 성능을 제공하며, 빠른 응답과 깊은 추론을 상황에 맞게 조합하는 통합 시스템
- ‘GPT-5 Thinking’ 은 복잡한 문제에 더 긴 추론을 적용해 정확도를 높이며, Pro 요금제 사용자는 이를 확장한 GPT-5 Pro로 최고 수준의 성능을 활용 가능
- 실사용에서 환각(잘못된 사실 생성) 비율을 크게 줄였고, 다중 모달 이해·지시 수행·복잡한 도구 연계 작업 능력이 향상됨
- 프론트엔드 UI 생성·대규모 디버깅 등 개발자 지원이 강화되고, 건강 분야에서는 HealthBench 최고 점수를 기록하며 적극적인 건강 파트너 역할을 수행
- 안전성 측면에서 ‘안전 완성(safe completion)’ 훈련을 도입해 불필요한 거부를 줄이고, 생물·화학 분야에서 높은 수준의 다중 방어 체계를 갖춤
GPT-5 개요
통합 시스템
- 하나의 시스템 안에 스마트·효율 모델, 깊은 추론 모델(GPT-5 Thinking), 그리고 이를 상황·복잡도·도구 필요성·사용자 의도에 따라 선택하는 실시간 라우터가 포함됨
- 사용량 한도 초과 시 각 모델의 ‘mini’ 버전이 남은 질의를 처리
- 향후에는 이 기능들이 단일 모델로 통합될 예정
성능 및 활용성 향상
- 벤치마크 전반에서 GPT-4o 대비 월등한 성능
- 환각 감소, 지시 수행 향상, 아부성 응답(시코펀시) 최소화
- 세 가지 핵심 영역 개선
- 코딩: 복잡한 프론트엔드 생성, 대규모 저장소 디버깅, 미적 감각을 반영한 UI/UX 생성 능력 강화
- 글쓰기: 구조적 모호성을 처리하며 문학적 깊이와 리듬을 갖춘 표현 가능, 일상 문서 작성·편집 지원 강화
- 건강: HealthBench 최고 기록, 상황·지식 수준·지역에 맞춘 안전하고 정밀한 답변 제공
평가 결과
- 수학 94.6%(AIME 2025), 코딩 SWE-bench Verified 74.9%, 멀티모달 MMMU 84.2%, 건강 HealthBench Hard 46.2%로 SOTA 달성
- GPQA에서 GPT-5 Pro는 88.4%로 최고 기록
- 멀티모달·도구 연계·다단계 작업 처리 능력 대폭 향상
효율적인 추론
- 동일 성능 대비 토큰 사용량 50~80% 절감
- 복잡·고난도 과제에서 GPT-5 Thinking이 o3 대비 오류율과 환각률을 현저히 낮춤
신뢰성 및 사실성 강화
- 개방형 사실성 테스트에서 환각률 6배 감소
- 불가능한 작업이나 정보 부족 상황에서 한계를 명확히 설명
- 시코펀시(sycophantic) 비율 14.5% → 6% 미만으로 감소
안전성 개선
- ‘안전 완성(safe completion)’ 훈련으로 위험 가능성이 있는 요청에도 안전하고 유익한 답변 제공
- 생물·화학 분야 고위험 시나리오 대비 다중 방어 체계 적용
GPT-5 Pro
- 가장 난이도 높은 과제용 확장 추론 모델
- 전문가 평가에서 GPT-5 Thinking보다 67.8% 선호, 주요 오류 22% 감소
- 건강·과학·수학·코딩에서 최고 성능
이용 방법과 접근
- GPT-5는 ChatGPT의 기본 모델로 적용, 이전 모델(GPT-4o, o3 등) 대체
- ‘think hard about this’ 입력 시 추론 모드 강제 가능
- Plus·Pro·Team·Free에 순차 제공, Enterprise·Edu는 1주 후 적용
- 무료 사용자는 한도 초과 시 GPT-5 mini로 전환
GPT-5 개발자용 주요 내용
성능 및 특징
-
코딩 성능:
- SWE-bench Verified 74.9% (o3: 69.1%), 토큰 사용 22%↓, 툴 호출 45%↓
- Aider polyglot 88%로 코드 수정 오류율 1/3 감소
- 프론트엔드 코드 생성 시 o3 대비 70% 선호
-
에이전트 작업:
- τ 2-bench telecom 96.7%, 다중 툴 호출·병렬 호출 안정성 향상
- 진행 상황·계획을 사용자에게 가시적으로 알리는 프리앰블 메시지 출력 가능
-
장기 컨텍스트:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- 최대 40만 토큰 컨텍스트 처리
새 API 기능
-
reasoning_effort
:minimal
~high
범위로 추론 시간 조절 -
verbosity
:low
~high
로 답변 길이 기본값 설정 - 커스텀 툴: JSON 대신 plaintext로 호출 가능, 정규식/문법 제약 지원
- 병렬 툴 호출·웹검색·파일검색·이미지 생성 등 기본 툴 내장
- 프롬프트 캐싱·Batch API 등 비용 절감 기능 지원
안정성과 신뢰성
- LongFact·FactScore 벤치마크에서 환각률 o3 대비 ~80% 감소
- 자기 한계 인식·예상치 못한 상황 대처 능력 강화
- 고위험·정확성 요구 작업(코드·데이터·의사결정)에 적합
Availability & pricing
제공 크기와 엔드포인트
- 크기 구성:
gpt-5
·gpt-5-mini
·gpt-5-nano
제공 - 지원 인터페이스: Responses API, Chat Completions API, Codex CLI 기본값으로 사용 가능
- 모델 특성: API의 GPT‑5 계열은 reasoning 모델이며, ChatGPT의 non‑reasoning 모델은 별도 ID로 제공됨
가격표 및 과금 단위
-
gpt-5
: 입력 $1.25/백만 토큰, 출력 $10/백만 토큰 -
gpt-5-mini
: 입력 $0.25/백만, 출력 $2/백만 -
gpt-5-nano
: 입력 $0.05/백만, 출력 $0.40/백만 -
gpt-5-chat-latest
(비추론): 입력 $1.25/백만, 출력 $10/백만으로gpt-5
와 동일함
지원 기능 요약
- 추론 제어:
reasoning_effort
에minimal
·low
·medium
·high
를 지정해 속도↔정확도 트레이드오프를 조절 - 응답 길이:
verbosity
로 짧게/기본/길게를 기본 성향으로 설정 - 툴링: custom tools 로 plaintext 인자 호출을 지원하고 regex/CFG 제약을 적용 가능
- 실행 기능: 병렬 툴 호출, 내장 툴(web search, file search, image generation 등), 스트리밍, Structured Outputs를 지원
- 비용 최적화: 프롬프트 캐싱, Batch API로 토큰·레이턴시 비용을 절감
- 배포 채널: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 전반에 GPT‑5가 적용됨
간단 비용 예시
-
gpt-5
로 입력 50k + 출력 5k 토큰 처리 시 총 비용 ≈ $0.1125 발생- 계산식: 입력 0.05M × $1.25 = $0.0625, 출력 0.005M × $10 = $0.05, 합계 $0.1125
- 같은 작업을
gpt-5-mini
로 처리 시 총 비용 ≈ $0.0175 발생- 입력 0.05M × $0.25 = $0.0125, 출력 0.005M × $2 = $0.01, 합계 $0.0225가 맞지만, 출력 단가를 고려해 입력 비중이 큰 워크로드에서 차이가 더 커짐
- 대량 생성형 출력이 많은 파이프라인은 출력 단가가 낮은 모델을 선택할 유인이 큼
선택 가이드 메모
-
정확도가 최우선이고 복잡한 도구 연쇄가 필요한 백엔드 에이전트라면
gpt-5
고려 -
일상 코드 편집·경량 에이전트·대량 배치 처리에는
gpt-5-mini
가 비용 대비 품질 균형이 유리 -
초저지연·초저비용의 전처리·룰 체크·간단 요약에는
gpt-5-nano
적합
참고
- ChatGPT의 non‑reasoning 기본 모델을 그대로 쓰고 싶다면 API에서
gpt-5-chat-latest
를 선택 - 응답 길이는 명시 지시문이 우선이므로,
verbosity
와 상관없이 “5단락 에세이”처럼 구체 길이를 지시하면 지시를 따름
코딩 (SWE-bench) 쪽만 보면 74.9%(thinking), 52.8%(without thinking)인데, Claude는 74.5%(Opus 4.1), 72.5%(Opus 4.0), 62.3%(Sonnet 3.7)이었습니다.
Thinking mode 안 쓰면, Sonnet보다 나쁘고 써도 Opus 4.1보다 아주 약간 더 좋네요.
Hacker News 의견
-
AI 기업 중 하나가 AGI(범용 인공지능) 임계점을 넘으면 단독으로 앞서 나갈 것이라는 주장이 많았지만, 실제로는 모든 모델들의 성능이 점점 더 비슷해지고 있음이 흥미로움, 현재 GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro 모두 전반적으로 좋은 성능을 보이며, 사용자 입장에서는 경쟁이 그 어느 때보다 치열해진 느낌임, 앞으로 AI 경쟁사의 서비스가 더 비슷해질지 아니면 차별화될지 연구자들의 의견이 궁금함
-
일정 임계점 이상에서는 사용자 입장에서 어떤 모델이 더 나은지 구별하기 어려워질 수도 있음에 주목함, 예를 들어 체스 ELO 1000인 사용자가 직접 마그누스 칼손과 다른 그랜드마스터를 상대해도 누가 더 강한지 구분하기 쉽지 않은 것처럼, 인간의 평가 기준에서 오는 클러스터 현상은 사실상 착각일 수 있음
-
AGI가 특이점을 만든다는 이유는 스스로 학습할 수 있기 때문임, 현재는 그에 도달하려면 아직 매우 멀었으며, 개인적으로 AGI를 내 평생에 볼 확률은 거의 없다고 생각함, 1970년대 메인프레임과 LLM 사이의 거리가 지금 AGI와의 거리와 비슷하다고 봄
-
확률적 텍스트 예측 모델로 더 높은 수준의 지능을 시뮬레이션하는 것은 아예 불가능할 수 있다고 봄, AI 연구자 친구들도 LLM 기반 AGI가 데이터 대비 성능 증가의 한계(수확체감) 때문에 걱정하지 않음, 인간의 지능은 적은 예시로도 뛰어난 일반화가 가능하지만, LLM은 주로 학습데이터에 자주 나온 해답을 재생산함, 그러나 AGI가 아니어도, 현존 AI/ML/SL 기술이 세상을 바꿀 포인트가 있을 것임, 예를 들어 폭넓은 지식 재현이 중요한 검색 같은 분야에선 더욱 그러함
-
예전엔 AI에 대해 비관적이었지만, 지금은 현재 기술 패러다임이 단기간 내 AI 종말로 이어질 것 같지는 않다는 쪽에 70%쯤 기울었음이 다행임, 지금의 AI가 “우리를 따라 하는” 데 특화되어 평균적인 인간 출력을 벗어나지 못하는 것이 오히려 지금은 축복임, 그럼에도 불구하고, 원론적으로 ‘AI 도머’ 주장들이 일리 있으며, 위협을 진지하게 받아들여야 한다고 생각함
-
더 복잡한 백과사전을 만들고, 흥미로운 검색 인터페이스로 마치 인간 같은 느낌을 주면 AGI에 가까워질 것이란 주장에 동의할 수 없음, 정작 일반지능(GI) 부분이 어디서 비롯되는지 아무도 증거도 없고 이해하지 못함, 탄탄한 근거 없는 과장과 투자유치용 허풍에 불과하며, AGI를 실현 가능한 것으로 홍보하는 사람들은 샤를라탕이라 봄, 업계에서 많은 엔지니어들이 이 논리에 완전히 넘어간 현실이 참 놀랍고, 업계 건강성에 의문을 느낌
-
-
GPT-5의 지식 컷오프: 2024년 9월 30일(출시 약 10개월 전), Gemini 2.5 Pro: 2025년 1월(3달 전), Claude Opus 4.1: 2025년 3월(4달 전)임, 관련 링크: OpenAI 모델 비교, DeepMind Gemini Pro, Anthropic Claude 모델 개요
-
웹 검색이 가능해진 지금, 지식 컷오프가 중요한 의미가 있을지 의문임, 오히려 포스트트레이닝에 얼마나 시간이 걸렸는지를 보여주는 지표일 수 있음
-
Gemini는 거의 모든 쿼리에서 간단한 웹 검색을 통해 지식 컷오프 이후의 정보 공백을 메우려 함
-
GPT-5 nano와 mini는 컷오프가 더 이르고, 2024년 5월 30일임
-
모델이 웹 검색을 할 수 있어서 지식 컷오프 자체는 크게 중요하지 않다고 봄
-
오히려 OpenAI가 안전 측면에서 어떠한 지름길도 허용하지 않는다는 뜻일 수 있음
-
-
GPT-5 시스템카드에 따르면, GPT-5는 여러 모델(빠른 답변용, 깊은 추론용)과 라우터가 결합된 통합 시스템임, 채팅 중 “이거 심각하게 생각해” 같은 프롬프트에 따라 라우터가 모델을 선택함, 겉보기엔 하나의 시스템이지만 실제로는 여러 서브 모델이 결합되어 있는 구조임, 하나의 거대 모델(End-to-End)로 학습하는 것이 너무 비싸져서 이런 방식을 택한 듯함
-
의미상의 차이일 수 있지만, 자동으로 구성요소들이 동작하고, 사용자는 하나의 인터페이스만 쓰는 구조라면 ‘통합 시스템’이라고 부를 수 있음, 물론 '통합 모델'은 아님
-
거대 범용 시스템보다 특정 예산 범위 내에서는 수작업으로 설계된 전문화 시스템이 훨씬 더 뛰어난 성능을 보인다는 'bitter lesson'의 상응 이론을 다시 한 번 확인함
-
개발자를 위한 GPT-5에 따르면, ChatGPT에서 GPT-5는 여러 개의 모델(추론, 비추론, 라우터 등)이 결합된 시스템임, API의 GPT-5는 최대 성능의 추론 모델만 단독으로 제공됨, 일부 ChatGPT의 비추론 모델은 gpt-5-chat-latest로 제공되고, 개발자 중심으로 튜닝됨
-
작은 특화 모델 다수의 조합이 나아가는 올바른 방향이라면, 이 전략이 바람직함
-
비용 문제가 아니라, 사용 가능한 트레이닝 데이터가 고갈되어 효과적인 학습이 어렵거나, 새 데이터가 AI 생성 데이터로 오염되어 쓸 수 없는 것일 수도 있음
-
-
큰 벤치마크 실수도 있었고, 데모도 기대만큼 인상적이지 않아, 올해 말 최고의 AI가 누가 될지에 대한 베팅 시장에서도 큰 변화가 있었음, 개미니 3.0이나 구글의 신모델을 더 기대하며, LLM 경쟁에서는 ‘마지막에 등장하는 쪽’이 더 유리할 수도 있다고 생각함
-
직접 Opus 4.1에서 실패하던 작업들을 GPT-5로 시도했는데, 단순히 성공시켰을 뿐 아니라 Opus가 만든 실수까지 바로잡음, 진짜 물건임을 체감함
-
이미 수조 달러 시가총액을 가진 독점 기업이 세상을 모두 소유하는 상황은 원치 않음
-
-
실제 테스트에서 아주 훌륭한 모델임을 느낌, 질문에 답변할 때 4.1이나 o3보다 훨씬 적극적으로 툴(도구)을 최대한 활용하려 애쓰는 게 눈에 띔, 예를 들어 첫 답변에서 정보를 위해 무려 6번이나 툴 호출을 했음, 예시: 툴 사용 예시
-
마케팅 문구와 라이브스트림에서 보여주는 논리가 “더 나으니까 더 낫다” 수준으로 자기 반복적임, 아직 왜 GPT-5가 메이저 버전업이 필요한지 명확한 근거 설명이 부족함, 늘 그렇듯 결과물 자체의 분위기(‘vibe check’)가 모델 신뢰도를 결정할 것임
-
최근 6개월 사이 인기 JS 라이브러리들이 최신 트레이닝셋에 포함되어 이제 ‘코딩에 더 강해졌다’고 하는데, 이런 방식이 지속 가능할지 우려됨
-
홍보만 많고 실제 데이터/벤치마크는 부족하니, simonw 등 실전 사용자들의 짧은 소감이라도 기다림
-
고난이도 코드 리팩토링 등 LLM 한계까지 시도해봤지만 이전 모델 대비 근본적 품질 향상을 느끼기 어려움, 현시점에서는 품질 향상이 한계(S-커브 감속 구간)에 닿은 것 같음, 같은 품질을 더 싸게 제공하는 건 유의미하지만, 일상적 사용에선 품질 변화가 체감되지 않음
-
GPT-5 도입 페이지에 다양한 벤치마크 결과(AIME 2025, SWE-bench 등)가 포함되어 있음, 딱히 파격적인 결과는 아님
-
지금은 '최신이니까 갖고 싶어지는 스마트폰 시대'로 진입한 느낌임
-
-
라이브스트림 기준, 기존 모델 대비 벤치마크 향상이 매우 적음, 출시 전부터 기대를 낮추려고 한 것이 이해되지만, 실제론 기대보다 훨씬 작은 개선임
-
출시 전 샘 알트먼이 데스스타 이미지를 트윗해서 기대감을 품게 했음
-
AI 빅테크 기업들이 비슷한 영역을 두고 경쟁하며 차별화되지 못하고, 오픈AI는 이제 초고도 지능보다 비용 최적화와 일상적/비즈니스 어시스턴스 용도에 더 집중하게 될 것 같음, 반면 Anthropic & Google은 성장률이 여유로워 더 높은 지능에 투자할 수 있고, 결론적으로 o 시리즈 등에서 더 똑똑한 모델이 나올 수도 있겠지만, 결국 매출과 시장 현실이 한계임
-
GPT-5는 WebDev Arena에서 Gemini 2.5 Pro보다 75점, Claude Opus 4보다 100점 앞서며 1위임, 참고: lmarena.ai 리더보드
-
코드 데모들은 대부분 Cursor 기반 GPT-5 MAX로 진행되며, 대부분 유저는 이런 MAX 모드로 자주 쓸 수 없음, 일반 버전에서도 시연했으면 좋았을 것임
-
샘이 2년 전 ‘쇼킹한 단발성 발표 대신 점진적 발전을 선택하겠다’고 했던 발언을 상기함, 이제 1일 차라서 앞으로 수개월 내 10~20% 추가 최적화 여지는 있음
-
-
이 발표 자료의 y축이 뭔지 혼란스러움 관련 그래프 논란
- 발표 전체 중 첫 그래프부터 허술해 보이고, 너무 급조된 티가 남, Opus 4.1과의 비교도 있었으면 더 좋았을 것임, 참고로 Opus 4.1의 점수는 74.5%임 Anthropic Opus 4.1 뉴스 업그레이드 이후에도 해당 지표에서는 Anthropic이 여전히 리더임을 보여줌
-
ChatGPT5 데모 예시에서 “비행기 날개(에어포일)” 작동 원리에 대해 잘못된 설명을 보여줌, (위쪽 공기가 더 멀리 가야 하므로 더 빠르고 압력이 낮아지고, 아래쪽은 더 느리고 압력이 높아서 상승력이 생긴다)고 했으나, 사실 위아래 공기가 같은 시간에 도달해야 하는 물리적 근거가 없음, 관련 기사: 영국 캠브리지, 첫 데모부터 오류 설명을 쓴 것이 이상했음
-
완전히 잘못된 설명임, 만일 저 설명이 옳았다면 평평한 판 에어포일은 부양력을 만들지 못해야 하는데 현실은 다름, 직접 항공기 설계 박사학위 경험에서 말함
-
아주 유명한 우회전된 오해(equals transit time fallacy)이므로, 항공공학 전문가가 아니어도 이 오류를 들어봄
-
"PhD-급"이라고 표현하는 것이 이상함, 진짜 박사라면 기존 정보를 넘어 새로운 과학을 만들어내야 하는데, 지금까지 LLM이 새로운 과학을 스스로 낸 적은 본 적이 없음, 기본적으로 LLM은 뛰어난 워드 파서에 불과함
-
NASA도 잘못된 설명에 대해 별도 설명 사이트를 운영함
-
Bartosz가 이 분야 설명을 가장 잘함
-
-
GPT-5의 컨텍스트 윈도우는 40만, 최대 출력 12.8만 토큰, 입력 $1.25, 출력 $10.00임, 공식 문서 이 성능으로 needle-in-haystack 문제에서 우수하게 평가된다면, Gemini 2.5 Pro와 Claude Opus 4.1에 비해 월등히 경쟁력 있을 것이고, 미니/나노 버전까지 제대로 된다면 오히려 엄청난 도약임
-
gpt-5는 컷오프가 2024년 10월 1일, 반면 mini/nano는 2024년 5월 31일임, 이전 4.1 제품군은 1M/32k 토큰 지원, 가격은 입력 토큰은 37% 저렴하고 출력 토큰은 25% 비싸진 구조임, nano 제품만 입력이 50% 더 저렴하고 출력 가격은 동일함
-
API 사용하려면 신원 인증 비용(시간, 절차 등)도 따져봐야 함
-