# GPT-5 개발자를 위한 공개

> Clean Markdown view of GeekNews topic #22401. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22401](https://news.hada.io/topic?id=22401)
- GeekNews Markdown: [https://news.hada.io/topic/22401.md](https://news.hada.io/topic/22401.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-08T10:04:00+09:00
- Updated: 2025-08-08T10:04:00+09:00
- Original source: [openai.com](https://openai.com/index/introducing-gpt-5-for-developers)
- Points: 1
- Comments: 1

## Topic Body

- **GPT-5 API**가 공식 출시되어 개발자를 위한 새로운 수준의 **코딩 및 에이전트 작업 성능**을 제공함
- SWE-bench Verified, Aider polyglot 등 주요 평가에서 **최고 성능(SOTA)** 기록하며, **커서(Cursor), Windsurf, Vercel** 등 여러 고객 사례에서 탁월함을 입증함
- 긴 실행 시간의 에이전트 작업, 정교한 **툴 연동**, 장문 컨텍스트 처리 등 **복잡한 실제 업무**에서 강력함을 보임
- **`verbosity`, `reasoning_effort` 등 세밀한 파라미터**와 커스텀 툴 지원으로 개발자 맞춤 제어 가능함
- **gpt-5, gpt-5-mini, gpt-5-nano**로 다양한 비용/성능 옵션 제공하며, Microsoft 및 각종 개발자 도구에 통합됨

---

### GPT-5 출시 및 중요성

- OpenAI는 **GPT-5를 API 플랫폼에 공개**하며, 지금까지 출시한 모델 중 **코딩과 에이전트 작업**에 최적화된 최고 성능임을 강조함
- 주요 코딩 벤치마크에서 SOTA(최고 성능)를 기록했고, **실제 스타트업 및 기업 테스터**들과 협업하여 훈련함
- **코드 생성, 버그 수정, 코드 편집, 복잡한 코드베이스 질의** 등, 실제 개발 업무에 협업자로서 뛰어난 활약을 보임
- 상세한 지침을 정밀하게 따르고, 툴 호출 전후에 **행동 설명** 및 계획을 안내하는 능력이 향상됨
- **프론트엔드 개발 성능** 역시 탁월하며, 내부 테스트에서 기존 모델 대비 70%의 우위 평가를 받음

### 주요 고객사 및 실사용 사례

- Cursor, Windsurf, Vercel, Manus, Notion, Inditex 등은 **GPT-5의 지능, 조절 용이성, 툴 에러 처리, 코드 품질**을 높게 평가함
- 실제 배포 상황에서 **복잡한 백그라운드 작업**, 장기 실행 에이전트 역할, 정교한 툴 연동에서 기존 모델 대비 탁월한 안정성과 효율성을 보임

### 벤치마크 및 성능 지표

- **SWE-bench Verified**(실제 소프트웨어 이슈 패치): o3 대비 높은 74.9% 성능과 22% 적은 토큰, 45% 적은 툴 호출로 효율성 개선
- **Aider polyglot**(코드 편집 평가): 88% 기록으로 o3 대비 오답률 1/3 수준 달성
- 복잡한 코드베이스 분석, **대형 LLM을 요청자 질문에 맞게 고도화**하여 개발자/연구자 손쉬운 활용 가능
- **프론트엔드 코드 생성**은 미적 감각·정확성 모두에서 테스트 시 70% 우위

### 에이전트적 작업 및 장기 컨텍스트 성과

- **τ2-bench telecom(툴 콜링 벤치마크)** 에서 96.7%로 최신 SOTA 기록
- 수십 개의 툴 호출을 연속 또는 병렬로 실행하는 **높은 작업 완성 능력**
- **COLLIE, Scale MultiChallenge** 등의 지시 사항 이행 평가에서 최고 점수
- **OpenAI-MRCR, BrowseComp Long Context** 등 긴 컨텍스트 Q&A에서 o3·GPT-4.1을 넘어서는 성능 나타냄
- **400,000 토큰**까지 맥락 길이 지원, 대규모 문서/대화 분석에 적합

### 신뢰성 및 안전성

- **LongFact, FactScore** 평가에서 o3 대비 80% 이상 사실 오류 감소
- 자체 한계를 인지·알림하고, 특히 건강 질문 영역에서 **정확도 강화**
- 실제 사용 시 여전히 중요한 영역에선 **개발자의 검증** 권장

### 개발자 제어성 및 API 신기능

- **`reasoning_effort`** : minimal/low/medium/high 값으로 답변속도·추론 품질 밸런스 제어 가능
  - minimal: 빠른 응답, high: 고품질 논리적 추론
- **`verbosity`** : low/medium/high로 출력 길이 조절
  - 명시적 지시가 있으면 파라미터보다 명시 지시 우선 적용
- **커스텀 툴**: JSON이 아닌 평문(plaintext) 포맷도 지원, 정규표현식이나 Context-Free Grammar로 툴 입력 형식 제약 가능
- **대형 코드 조각/보고서 등에서 JSON escape 오류 우려 최소화**, 개발자 툴 통합 용이성 향상

### 다양한 API 모델 및 가격 정책

- **gpt-5**: $1.25/백만 입력 토큰, $10/백만 출력 토큰
- **gpt-5-mini**: $0.25/백만 입력, $2/백만 출력
- **gpt-5-nano**: $0.05/백만 입력, $0.40/백만 출력
- 모든 모델이 reasoning_effort, verbosity, custom tools, 병렬 툴 호출, 웹/파일/이미지 내장 툴, 스트리밍 등 주요 기능 지원
- **gpt-5-chat-latest**는 ChatGPT용 비논리 모델로 같은 가격으로 공개

### 통합 및 확장성

- **Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry 등 다양한 Microsoft 플랫폼에 통합 출시**
- Cursor, Windsurf, GitHub Copilot, Codex CLI 등 개발자 에이전트 시스템의 핵심 엔진으로 적용
- 알파테스터 내부 평가 및 다양한 코드/업무 자동화 제품에서 **기존 모델 대비 새로운 기준 제시**

### 안전성·신뢰성·추가 자료

- **거짓 반환 가능성(환각)** 이 크게 감소되고, 작업 과정 및 한계에 대해 더 정직하게 설명
- 시스템 카드, 내부 리서치 블로그 등에서 구현 및 평가 세부사항과 안전성 조치 투명하게 제공
- 고도의 자동 코딩 파트너이자, 복잡한 에이전티브 워크플로 자동화에 특화됨

### 결론

- GPT-5는 현재까지 나온 LLM 중 **가장 강력한 코딩 및 에이전트 업무 특화 모델**로, 실제 개발환경과 업무 자동화에 최적화된 혁신적인 파트너임.
- 진화된 API 및 툴 체계, 다양한 용량과 가격 옵션, 높은 평가 성과로 개발자와 조직에게 **새로운 생산성 시대**를 열어줌

## Comments



### Comment 42276

- Author: neo
- Created: 2025-08-08T10:04:00+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44827101) 
* Opus와 GPT-5 간의 소프트웨어 개발 전문성에서 실질적 차이를 느끼진 못함, 하지만 내가 실제로 중요한 건 긴 시간 동안 맥락을 얼마나 잘 유지하며 주어진 목적을 향해 나아가느냐임, 현실적인 소프트웨어 엔지니어링에서 이 부분이 가장 중요하다고 생각함, 이걸 정확히 측정하고 검증하는 평가 지표가 궁금함
  * Charlie Labs에서 최근 몇 주 GPT-5에 대한 긴 시간 작업 맥락 유지 실험에서 상당히 좋은 결과를 경험함, 실제 Github 이슈 10개를 풀게 하면서 Claude Code와 비교했더니 놀랄 만큼 성능 차이가 컸음, 관련 실험 내용은 [여기](https://charlielabs.ai/research/gpt-5)에서 볼 수 있음, 보통 30~45분짜리 복잡한 맥락에서 방향이 바뀌어도 잘 따라오며 Linear나 Github의 방대한 스레드도 잘 핸들링함, 아직 이슈 수가 적긴 하지만 매우 인상적이었고 앞으로도 더 확장해가며 성능 측정할 예정임
  * 복잡하고 맥락이 자주 바뀌는 목적을 매일 자주 만들어내게 되는데, 이런 맥락 유지가 꼭 필요한 상황임, 그런데 Github Copilot이 실제로 기존의 코딩 보조 도구 가운데 찬밥 신세라는 게 아쉬움, Anthropic, OpenAI, Google 등 다양한 모델에 비해 넘 크게 주목 못 받고 있고, 실제로 [spaces](https://docs.github.com/en/copilot/concepts/spaces)라는 웹 기반 기능을 써보니 IDE에서보다 큰 작업에 좋았음, 하지만 맥락 수집과 결과 리뷰가 내가 직접 하는 것보다 더 오래 걸렸다는 점이 단점임, 이미 맥락을 모으고 쌓아가는 데에 강점이 있을 것 같음
  * 현시점에서 frontier LLM 들이 제공되는 맥락만 충분히 주면 대부분의 문제를 해결해줌, 실패할 때마다 어떤 맥락이 부족한지 파악하는 데 대부분의 시간을 씀, 그래서 내가 필요로 하는 건 더 집중력 있게 맥락을 수집하는 능력임, 내 사용 사례는 대개 코드 파일, 이슈, PR, 논의에서 정말 연관 있는 자료에 초점 맞추는 것이 중요함, GPT-5가 이 면에서 한 단계 진보하길 기대함, OPUS보다 저렴하면서 성과가 비슷하거나 더 좋으면 더더욱 기대됨
  * GPT-5의 가격 정책이 Opus에 비해 훨씬 더 좋아졌는데, 이젠 Gemini 2.5 Pro와 비슷한 수준까지 내려왔음
  * 정말로 GPT-5가 400k 컨텍스트로 동작한다면 Opus를 의미 있게 넘어서기에 충분할 것 같음
* gpt-5-mini로 RAG 시나리오 테스트 중인데 지금까지 인상적임, reasoning_effort="minimal" 옵션과 함께 썼더니 기존 모델이 다 헛소리 하던 부분에서 유일하게 거짓 생성 안 함, 관련 스크린샷은 [여기](https://bsky.app/profile/pamelafox.bsky.social/post/3lvtdyvb...) 올림, 앞으로 포멀한 평가도 진행 예정임
  * “제품 매니저는 뭐하는 사람인가?”라는 질문에서 GPT-4는 부서 협업 등 미사여구를 줬는데 GPT-5는 “모르겠다”라고 대답함, 그 한마디에서 AI가 진짜 눈을 뜨는 경험 같음
  * phi-4와 gemma-3n도 RAG 시나리오에서 제공된 맥락만 쓰고 맥락에 없는 답은 억지로 내지 않아 헛소리 방지가 좋아졌음을 확인함
  * 진짜 가장 큰 변화는 이 부분 같음, 난 도구 호출을 많이 하는 워크플로우를 다루는데 모델이 가짜 툴을 헛소리로 만들어내는 게 큰 문제였음, 심지어 툴 호출을 건너뛰고 바로 근거 없는 답변을 만들기도 함, 최근 훈련 보상에서 헛소리와 툴 스킵 억제 강화가 유의미하게 발전하는 중임
* 최근 일주일간 Cursor, Claude Code 등 여러 툴로 거의 70시간 정도 실험함, 진짜 인상적이고 신뢰도 높아졌지만, 실제로 꾸준히 잘 되는 건 역시 claude 계열 모델임, 벤치마크랑 달리 실제 사용에서 이게 더 중요하다고 느낌, 새로운 gpt 모델이 이 케이스에서 잘 돌아가길 기대함, 경쟁이 더 활발해지고 가격도 좋으니까 기대 중임
  * Cursor(1.4) 최신 툴 업뎃 덕분에 Gemini 같은 모델도 도구 사용이 이전보다 훨씬 신뢰도 높아졌음, 전엔 파일 수정처럼 기본적인 것도 자주 실수했는데 이제 거의 매번 제대로 동작함
  * 이 부분은 사용하는 스택에도 좌우된다고 봄, 최근 t3.gg의 Convex 소개 영상을 봤는데 [영상](https://www.youtube.com/watch?v=gZ4Tdwz1L7k), [Convex](https://www.convex.dev/) 구조가 처음 시도에서 제대로 나오게 만들어줌, 실제로 써보니 동감하게 됨, 앞으로 개발 워크플로는 여러 AI 병렬작동을 극대화하려면 바로 코드에 뛰어들기보다 PM툴([Linear](https://linear.app/)이 요즘 대세인 듯)에 티켓 여러 개를 생성하고 이걸 병렬로 실행 가능한지 AI에 맡겨서 추려낸 뒤, IDE나 [Warp](https://www.warp.dev/)에서 여러 티켓을 동시에 작업하는 식으로 바뀔 것 같음, 나도 아직 완전히 이 방식으로 작업하진 않지만 앞으로 바꿔야 한다 생각 중, 그리고 이를 위해선 git worktree가 필수임 [관련 자료](https://docs.anthropic.com/en/docs/claude-code/common-workfl...), [문서](https://git-scm.com/docs/git-worktree), [블로그](https://www.tomups.com/posts/git-worktrees/)
  * 실제로 "좋다, 신뢰할만하다" 판단할 만큼 어느 정도까지 제품을 만들어봤는지 궁금함, 70시간이면 PoC까지야 만들 수 있지만 여러 기능을 계속 얹어가는 단계에서의 완성도가 궁금함
  * OpenAI의 reasoning 기반 모델이 더 좋은 코드와 문제 해결력을 보이지만 Claude code가 실제로 더 쓸만하다고 느낌, 모델 자체가 약해도 실사용에는 더 적합하다고 생각함
* 벤치마크 성능만큼 좋다면 가격 정책도 매우 매력적임, 입력 토큰 $1.25/백만, 캐시된 입력은 $0.125/백만, 출력은 $10/백만임, 참고로 Claude Opus 4.1은 입력 $15/백만, 출력 $75/백만임, 이제 중요한 건 도구 사용이 Claude Code 대비 얼마나 잘 되는지임, 데모는 좋게 나왔지만, Tau2-bench airline에선 o3보다 저조하게 나와서 아직 단정은 못 하겠음
  * 최근 몇 시간 직접 테스트해본 결과 Opus 4.1 대비 GPT-5가 점점 괜찮다고 느낌, 몇 달간 Claude Code 200 플랜 사용하면서 점점 아웃풋이 실망스러워졌는데, GPT-5가 한 단계 앞선다고 생각함
  * 두 개 이상의 하위 모델이 섞인 구조로 작동하는데도 일률적 토큰 가격 책정을 적용해서 흥미로움, 실제로는 저렴한 모델이 더 많이 쓰이도록 설계된 예측에 기반한 가격으로 보이며, 만약 유저가 더 성능 좋은 모델 쪽을 자주 쓰면 가격 모델이 유지될지 궁금함, 혹은 가격 마진이 넉넉하게 책정되어 있어서 신경 안 쓸 수도 있다고 생각함
  * 가격=비용이 아님, 현 가격은 플랫폼 점유율을 위해 일부러 낮게 잡은 것으로 보임, 실제 운용비용 반영과는 거리가 멀 수 있음, 3월에 받은 400억 달러 중 상당 부분이 이런 출혈경쟁에 투입될 거라 예상함
* "GPT-5는 agentic task 도구 호출 벤치마크(τ2-bench telecom)에서 96.7% 최고기록 경신" 이란 설명, 하지만 airline 벤치마크에선 o3보다 못했음, 발표문이 본인들에게 유리한 정보만 강조한 것 같음
  * 해당 그래프와 섹션을 직접 작성한 입장에서 실제로 좋은 평가 데이터가 telecom 쪽임을 강조하고 싶음, retail과 airline 벤치는 자동 평가가 너무 까다롭게 한 가지 답안만 정답으로 채점해서, 여러 좋은 솔루션이 점수를 못 받는 문제가 있었음, telecom 벤치는 결과 상태를 기준으로 채점하고 다양한 정답 허용, 자동 채점의 약점을 보완함, 모델의 실제 성능 신호가 더 분명하게 드러남, 그러므로 telecom 벤치에 집중하는 게 타당함, 참고로 [tau2-bench 논문](https://arxiv.org/abs/2506.07982)도 같이 확인할 수 있음, 그리고 이런 평가들에서 부분점수가 없으므로 작은 실수 하나가 전체 점수에 크나큰 영향을 미침, 그래서 실제 성능은 평가점수보다 높거나 낮을 수 있음
  * 비용 측면이 궁금함, o3는 꽤 비싸게 운용되는 걸로 아는데 GPT-5가 그보다 저렴하다면 성능이 근접하더라도 충분히 의미 있는 개선이라고 생각할 수 있음
  * 실제로 본문에 airline에서 낮게 나온 것도 언급되어 있으므로 함정 질문은 아니라고 생각함
* CFG(문맥 자유 문법)과 정규식 지원이 흥미롭다고 느끼고 있음, 특히 OpenAI API의 JSON 스키마를 구현하는 llguidance의 Lark-like CFG와 차이가 있는지 궁금함, [관련 소스](https://github.com/guidance-ai/llguidance/blob/f4592cc0c783a987fa44791fc1d702208b366613/README.md)
  * 이번 발표에서 가장 기대되는 부분이 CFG와 정형화 출력임, 다른 곳들(API, Google, OpenAI 등)에서 이 부분 실사용에 계속 문제가 걸렸는데 정말 빨리 써보고 싶음
* Cursor에서 며칠간 무료로 사용 가능함, 여러 IDE/CLI에서 agentic coding 파워 유저로 활동해왔는데 Cursor+GPT-5 조합이 좋은 느낌임, 시간 있을 때 꼭 직접 사용해보길 추천함
* 출력에 문맥 자유 문법을 직접 강제할 수 있는 기능이 나와서 매우 놀랍고 흥미로움, 샘플링 단계에서 어떻게 올바른 문법을 강제하는지 궁금함
  * "구조화된 생성" 혹은 "guided generation" 방식일 것으로 추측함, LLM을 직접 쓸 수 있다면 이전부터 응용돼왔던 기술임 [예시1](https://github.com/dottxt-ai/outlines), [예시2](https://github.com/guidance-ai/guidance), 핵심은 각 토큰 생성 단계마다 전체 어휘가 아니라 현재 문법상 허용 가능한 토큰 집합만 선택지로 주는 것임, 예를 들어 JSON 문법의 { 다음엔 올 수 있는 유효 토큰만 주는 방식임
  * 문법 생산 규칙상 유효 가능한 토큰만 샘플링 풀로 두어 출력함, 순수 추론(inference) 과정에서 제한이 걸리는 구조임
* 벤치마크에서 경쟁사 모델들과 비교하지 않고 GPT-5만 자체 전세대와 비교하는 모습이, 마치 애플이 아이폰을 자기 전세대에만 비교하는 느낌이라 떠오름
* 어려운 문제에 GPT-5를 테스트했을 때 Gemini는 못 풀었던 걸 잘 분석해서 문제를 해결함, 하지만 그 후 코드 수정엔 6번이나 실패함, GPT-5의 문제 분석 결과를 Google Gemini에 주자 Gemini가 바로 올바른 수정 코드를 만듦, 결론적으로 ChatGPT는 분석/코드 리뷰는 잘하지만 실제 코딩 능력은 아쉬움
  * 나 역시 Gemini(GCA)와 CoPilot(Claude) 모두 같은 문제에서 똑같이 분석하고 똑같이 그른 해법을 냈음, 오류를 지적해도 더 틀린 풀이를 냄, ChatGPT는 아직 안 써봤지만 곧 시도해볼 계획임
