GPT-5 개발자를 위한 공개
(openai.com)- GPT-5 API가 공식 출시되어 개발자를 위한 새로운 수준의 코딩 및 에이전트 작업 성능을 제공함
- SWE-bench Verified, Aider polyglot 등 주요 평가에서 최고 성능(SOTA) 기록하며, 커서(Cursor), Windsurf, Vercel 등 여러 고객 사례에서 탁월함을 입증함
- 긴 실행 시간의 에이전트 작업, 정교한 툴 연동, 장문 컨텍스트 처리 등 복잡한 실제 업무에서 강력함을 보임
-
verbosity
,reasoning_effort
등 세밀한 파라미터와 커스텀 툴 지원으로 개발자 맞춤 제어 가능함 - gpt-5, gpt-5-mini, gpt-5-nano로 다양한 비용/성능 옵션 제공하며, Microsoft 및 각종 개발자 도구에 통합됨
GPT-5 출시 및 중요성
- OpenAI는 GPT-5를 API 플랫폼에 공개하며, 지금까지 출시한 모델 중 코딩과 에이전트 작업에 최적화된 최고 성능임을 강조함
- 주요 코딩 벤치마크에서 SOTA(최고 성능)를 기록했고, 실제 스타트업 및 기업 테스터들과 협업하여 훈련함
- 코드 생성, 버그 수정, 코드 편집, 복잡한 코드베이스 질의 등, 실제 개발 업무에 협업자로서 뛰어난 활약을 보임
- 상세한 지침을 정밀하게 따르고, 툴 호출 전후에 행동 설명 및 계획을 안내하는 능력이 향상됨
- 프론트엔드 개발 성능 역시 탁월하며, 내부 테스트에서 기존 모델 대비 70%의 우위 평가를 받음
주요 고객사 및 실사용 사례
- Cursor, Windsurf, Vercel, Manus, Notion, Inditex 등은 GPT-5의 지능, 조절 용이성, 툴 에러 처리, 코드 품질을 높게 평가함
- 실제 배포 상황에서 복잡한 백그라운드 작업, 장기 실행 에이전트 역할, 정교한 툴 연동에서 기존 모델 대비 탁월한 안정성과 효율성을 보임
벤치마크 및 성능 지표
- SWE-bench Verified(실제 소프트웨어 이슈 패치): o3 대비 높은 74.9% 성능과 22% 적은 토큰, 45% 적은 툴 호출로 효율성 개선
- Aider polyglot(코드 편집 평가): 88% 기록으로 o3 대비 오답률 1/3 수준 달성
- 복잡한 코드베이스 분석, 대형 LLM을 요청자 질문에 맞게 고도화하여 개발자/연구자 손쉬운 활용 가능
- 프론트엔드 코드 생성은 미적 감각·정확성 모두에서 테스트 시 70% 우위
에이전트적 작업 및 장기 컨텍스트 성과
- τ2-bench telecom(툴 콜링 벤치마크) 에서 96.7%로 최신 SOTA 기록
- 수십 개의 툴 호출을 연속 또는 병렬로 실행하는 높은 작업 완성 능력
- COLLIE, Scale MultiChallenge 등의 지시 사항 이행 평가에서 최고 점수
- OpenAI-MRCR, BrowseComp Long Context 등 긴 컨텍스트 Q&A에서 o3·GPT-4.1을 넘어서는 성능 나타냄
- 400,000 토큰까지 맥락 길이 지원, 대규모 문서/대화 분석에 적합
신뢰성 및 안전성
- LongFact, FactScore 평가에서 o3 대비 80% 이상 사실 오류 감소
- 자체 한계를 인지·알림하고, 특히 건강 질문 영역에서 정확도 강화
- 실제 사용 시 여전히 중요한 영역에선 개발자의 검증 권장
개발자 제어성 및 API 신기능
-
reasoning_effort
: minimal/low/medium/high 값으로 답변속도·추론 품질 밸런스 제어 가능- minimal: 빠른 응답, high: 고품질 논리적 추론
-
verbosity
: low/medium/high로 출력 길이 조절- 명시적 지시가 있으면 파라미터보다 명시 지시 우선 적용
- 커스텀 툴: JSON이 아닌 평문(plaintext) 포맷도 지원, 정규표현식이나 Context-Free Grammar로 툴 입력 형식 제약 가능
- 대형 코드 조각/보고서 등에서 JSON escape 오류 우려 최소화, 개발자 툴 통합 용이성 향상
다양한 API 모델 및 가격 정책
- gpt-5: $1.25/백만 입력 토큰, $10/백만 출력 토큰
- gpt-5-mini: $0.25/백만 입력, $2/백만 출력
- gpt-5-nano: $0.05/백만 입력, $0.40/백만 출력
- 모든 모델이 reasoning_effort, verbosity, custom tools, 병렬 툴 호출, 웹/파일/이미지 내장 툴, 스트리밍 등 주요 기능 지원
- gpt-5-chat-latest는 ChatGPT용 비논리 모델로 같은 가격으로 공개
통합 및 확장성
- Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry 등 다양한 Microsoft 플랫폼에 통합 출시
- Cursor, Windsurf, GitHub Copilot, Codex CLI 등 개발자 에이전트 시스템의 핵심 엔진으로 적용
- 알파테스터 내부 평가 및 다양한 코드/업무 자동화 제품에서 기존 모델 대비 새로운 기준 제시
안전성·신뢰성·추가 자료
- 거짓 반환 가능성(환각) 이 크게 감소되고, 작업 과정 및 한계에 대해 더 정직하게 설명
- 시스템 카드, 내부 리서치 블로그 등에서 구현 및 평가 세부사항과 안전성 조치 투명하게 제공
- 고도의 자동 코딩 파트너이자, 복잡한 에이전티브 워크플로 자동화에 특화됨
결론
- GPT-5는 현재까지 나온 LLM 중 가장 강력한 코딩 및 에이전트 업무 특화 모델로, 실제 개발환경과 업무 자동화에 최적화된 혁신적인 파트너임.
- 진화된 API 및 툴 체계, 다양한 용량과 가격 옵션, 높은 평가 성과로 개발자와 조직에게 새로운 생산성 시대를 열어줌
Hacker News 의견
- Opus와 GPT-5 간의 소프트웨어 개발 전문성에서 실질적 차이를 느끼진 못함, 하지만 내가 실제로 중요한 건 긴 시간 동안 맥락을 얼마나 잘 유지하며 주어진 목적을 향해 나아가느냐임, 현실적인 소프트웨어 엔지니어링에서 이 부분이 가장 중요하다고 생각함, 이걸 정확히 측정하고 검증하는 평가 지표가 궁금함
- Charlie Labs에서 최근 몇 주 GPT-5에 대한 긴 시간 작업 맥락 유지 실험에서 상당히 좋은 결과를 경험함, 실제 Github 이슈 10개를 풀게 하면서 Claude Code와 비교했더니 놀랄 만큼 성능 차이가 컸음, 관련 실험 내용은 여기에서 볼 수 있음, 보통 30~45분짜리 복잡한 맥락에서 방향이 바뀌어도 잘 따라오며 Linear나 Github의 방대한 스레드도 잘 핸들링함, 아직 이슈 수가 적긴 하지만 매우 인상적이었고 앞으로도 더 확장해가며 성능 측정할 예정임
- 복잡하고 맥락이 자주 바뀌는 목적을 매일 자주 만들어내게 되는데, 이런 맥락 유지가 꼭 필요한 상황임, 그런데 Github Copilot이 실제로 기존의 코딩 보조 도구 가운데 찬밥 신세라는 게 아쉬움, Anthropic, OpenAI, Google 등 다양한 모델에 비해 넘 크게 주목 못 받고 있고, 실제로 spaces라는 웹 기반 기능을 써보니 IDE에서보다 큰 작업에 좋았음, 하지만 맥락 수집과 결과 리뷰가 내가 직접 하는 것보다 더 오래 걸렸다는 점이 단점임, 이미 맥락을 모으고 쌓아가는 데에 강점이 있을 것 같음
- 현시점에서 frontier LLM 들이 제공되는 맥락만 충분히 주면 대부분의 문제를 해결해줌, 실패할 때마다 어떤 맥락이 부족한지 파악하는 데 대부분의 시간을 씀, 그래서 내가 필요로 하는 건 더 집중력 있게 맥락을 수집하는 능력임, 내 사용 사례는 대개 코드 파일, 이슈, PR, 논의에서 정말 연관 있는 자료에 초점 맞추는 것이 중요함, GPT-5가 이 면에서 한 단계 진보하길 기대함, OPUS보다 저렴하면서 성과가 비슷하거나 더 좋으면 더더욱 기대됨
- GPT-5의 가격 정책이 Opus에 비해 훨씬 더 좋아졌는데, 이젠 Gemini 2.5 Pro와 비슷한 수준까지 내려왔음
- 정말로 GPT-5가 400k 컨텍스트로 동작한다면 Opus를 의미 있게 넘어서기에 충분할 것 같음
- gpt-5-mini로 RAG 시나리오 테스트 중인데 지금까지 인상적임, reasoning_effort="minimal" 옵션과 함께 썼더니 기존 모델이 다 헛소리 하던 부분에서 유일하게 거짓 생성 안 함, 관련 스크린샷은 여기 올림, 앞으로 포멀한 평가도 진행 예정임
- “제품 매니저는 뭐하는 사람인가?”라는 질문에서 GPT-4는 부서 협업 등 미사여구를 줬는데 GPT-5는 “모르겠다”라고 대답함, 그 한마디에서 AI가 진짜 눈을 뜨는 경험 같음
- phi-4와 gemma-3n도 RAG 시나리오에서 제공된 맥락만 쓰고 맥락에 없는 답은 억지로 내지 않아 헛소리 방지가 좋아졌음을 확인함
- 진짜 가장 큰 변화는 이 부분 같음, 난 도구 호출을 많이 하는 워크플로우를 다루는데 모델이 가짜 툴을 헛소리로 만들어내는 게 큰 문제였음, 심지어 툴 호출을 건너뛰고 바로 근거 없는 답변을 만들기도 함, 최근 훈련 보상에서 헛소리와 툴 스킵 억제 강화가 유의미하게 발전하는 중임
- 최근 일주일간 Cursor, Claude Code 등 여러 툴로 거의 70시간 정도 실험함, 진짜 인상적이고 신뢰도 높아졌지만, 실제로 꾸준히 잘 되는 건 역시 claude 계열 모델임, 벤치마크랑 달리 실제 사용에서 이게 더 중요하다고 느낌, 새로운 gpt 모델이 이 케이스에서 잘 돌아가길 기대함, 경쟁이 더 활발해지고 가격도 좋으니까 기대 중임
- Cursor(1.4) 최신 툴 업뎃 덕분에 Gemini 같은 모델도 도구 사용이 이전보다 훨씬 신뢰도 높아졌음, 전엔 파일 수정처럼 기본적인 것도 자주 실수했는데 이제 거의 매번 제대로 동작함
- 이 부분은 사용하는 스택에도 좌우된다고 봄, 최근 t3.gg의 Convex 소개 영상을 봤는데 영상, Convex 구조가 처음 시도에서 제대로 나오게 만들어줌, 실제로 써보니 동감하게 됨, 앞으로 개발 워크플로는 여러 AI 병렬작동을 극대화하려면 바로 코드에 뛰어들기보다 PM툴(Linear이 요즘 대세인 듯)에 티켓 여러 개를 생성하고 이걸 병렬로 실행 가능한지 AI에 맡겨서 추려낸 뒤, IDE나 Warp에서 여러 티켓을 동시에 작업하는 식으로 바뀔 것 같음, 나도 아직 완전히 이 방식으로 작업하진 않지만 앞으로 바꿔야 한다 생각 중, 그리고 이를 위해선 git worktree가 필수임 관련 자료, 문서, 블로그
- 실제로 "좋다, 신뢰할만하다" 판단할 만큼 어느 정도까지 제품을 만들어봤는지 궁금함, 70시간이면 PoC까지야 만들 수 있지만 여러 기능을 계속 얹어가는 단계에서의 완성도가 궁금함
- OpenAI의 reasoning 기반 모델이 더 좋은 코드와 문제 해결력을 보이지만 Claude code가 실제로 더 쓸만하다고 느낌, 모델 자체가 약해도 실사용에는 더 적합하다고 생각함
- 벤치마크 성능만큼 좋다면 가격 정책도 매우 매력적임, 입력 토큰 $1.25/백만, 캐시된 입력은 $0.125/백만, 출력은 $10/백만임, 참고로 Claude Opus 4.1은 입력 $15/백만, 출력 $75/백만임, 이제 중요한 건 도구 사용이 Claude Code 대비 얼마나 잘 되는지임, 데모는 좋게 나왔지만, Tau2-bench airline에선 o3보다 저조하게 나와서 아직 단정은 못 하겠음
- 최근 몇 시간 직접 테스트해본 결과 Opus 4.1 대비 GPT-5가 점점 괜찮다고 느낌, 몇 달간 Claude Code 200 플랜 사용하면서 점점 아웃풋이 실망스러워졌는데, GPT-5가 한 단계 앞선다고 생각함
- 두 개 이상의 하위 모델이 섞인 구조로 작동하는데도 일률적 토큰 가격 책정을 적용해서 흥미로움, 실제로는 저렴한 모델이 더 많이 쓰이도록 설계된 예측에 기반한 가격으로 보이며, 만약 유저가 더 성능 좋은 모델 쪽을 자주 쓰면 가격 모델이 유지될지 궁금함, 혹은 가격 마진이 넉넉하게 책정되어 있어서 신경 안 쓸 수도 있다고 생각함
- 가격=비용이 아님, 현 가격은 플랫폼 점유율을 위해 일부러 낮게 잡은 것으로 보임, 실제 운용비용 반영과는 거리가 멀 수 있음, 3월에 받은 400억 달러 중 상당 부분이 이런 출혈경쟁에 투입될 거라 예상함
- "GPT-5는 agentic task 도구 호출 벤치마크(τ2-bench telecom)에서 96.7% 최고기록 경신" 이란 설명, 하지만 airline 벤치마크에선 o3보다 못했음, 발표문이 본인들에게 유리한 정보만 강조한 것 같음
- 해당 그래프와 섹션을 직접 작성한 입장에서 실제로 좋은 평가 데이터가 telecom 쪽임을 강조하고 싶음, retail과 airline 벤치는 자동 평가가 너무 까다롭게 한 가지 답안만 정답으로 채점해서, 여러 좋은 솔루션이 점수를 못 받는 문제가 있었음, telecom 벤치는 결과 상태를 기준으로 채점하고 다양한 정답 허용, 자동 채점의 약점을 보완함, 모델의 실제 성능 신호가 더 분명하게 드러남, 그러므로 telecom 벤치에 집중하는 게 타당함, 참고로 tau2-bench 논문도 같이 확인할 수 있음, 그리고 이런 평가들에서 부분점수가 없으므로 작은 실수 하나가 전체 점수에 크나큰 영향을 미침, 그래서 실제 성능은 평가점수보다 높거나 낮을 수 있음
- 비용 측면이 궁금함, o3는 꽤 비싸게 운용되는 걸로 아는데 GPT-5가 그보다 저렴하다면 성능이 근접하더라도 충분히 의미 있는 개선이라고 생각할 수 있음
- 실제로 본문에 airline에서 낮게 나온 것도 언급되어 있으므로 함정 질문은 아니라고 생각함
- CFG(문맥 자유 문법)과 정규식 지원이 흥미롭다고 느끼고 있음, 특히 OpenAI API의 JSON 스키마를 구현하는 llguidance의 Lark-like CFG와 차이가 있는지 궁금함, 관련 소스
- 이번 발표에서 가장 기대되는 부분이 CFG와 정형화 출력임, 다른 곳들(API, Google, OpenAI 등)에서 이 부분 실사용에 계속 문제가 걸렸는데 정말 빨리 써보고 싶음
- Cursor에서 며칠간 무료로 사용 가능함, 여러 IDE/CLI에서 agentic coding 파워 유저로 활동해왔는데 Cursor+GPT-5 조합이 좋은 느낌임, 시간 있을 때 꼭 직접 사용해보길 추천함
- 출력에 문맥 자유 문법을 직접 강제할 수 있는 기능이 나와서 매우 놀랍고 흥미로움, 샘플링 단계에서 어떻게 올바른 문법을 강제하는지 궁금함
- 벤치마크에서 경쟁사 모델들과 비교하지 않고 GPT-5만 자체 전세대와 비교하는 모습이, 마치 애플이 아이폰을 자기 전세대에만 비교하는 느낌이라 떠오름
- 어려운 문제에 GPT-5를 테스트했을 때 Gemini는 못 풀었던 걸 잘 분석해서 문제를 해결함, 하지만 그 후 코드 수정엔 6번이나 실패함, GPT-5의 문제 분석 결과를 Google Gemini에 주자 Gemini가 바로 올바른 수정 코드를 만듦, 결론적으로 ChatGPT는 분석/코드 리뷰는 잘하지만 실제 코딩 능력은 아쉬움
- 나 역시 Gemini(GCA)와 CoPilot(Claude) 모두 같은 문제에서 똑같이 분석하고 똑같이 그른 해법을 냈음, 오류를 지적해도 더 틀린 풀이를 냄, ChatGPT는 아직 안 써봤지만 곧 시도해볼 계획임