Every의 GPT-5 핸즈온 리뷰

(every.to)

11P by neo 7달전 | ★ favorite | 댓글 1개

GPT-5는 ChatGPT에서 속도·단순성·응답 품질을 크게 개선해 대부분의 일반 사용자에게 가장 뛰어난 모델로 평가됨
API 가격에서 경쟁사 대비 강력한 가격 경쟁력을 확보, 특히 GPT-5-mini는 Google Gemini 2.5 Flash보다 저렴하고 GPT-5 Standard는 Claude 4 Opus 대비 12배 저렴함
일상 작업·페어 프로그래밍·연구·디버깅에서는 뛰어나지만, 에이전틱 프로그래밍과 글 품질 평가에서는 한계가 있음
팀 리뷰에서는 GPT-5가 정의된 작업·코드 병합·초안 작성·심층 분석에 강점을 보였으나, 장시간 자율 작업과 창의적 대규모 개발에서는 아쉬움
벤치마크 테스트에서 특정 문제 해결·앱 기능 구현·연구 능력은 뛰어났지만, 게임·UI 디자인·글쓰기 일관성 등은 Opus 4.1이 더 높은 평가를 받음

ChatGPT에서의 GPT-5

속도가 두드러진 특징으로, 간단한 질의에는 즉시 응답하고 복잡한 요청에는 스스로 시간을 늘려 더 깊이 있는 답변을 제공
모델 선택 메뉴를 제거하고 자동 전환(auto-switcher) 방식을 도입, 요청에 따라 비추론·추론 버전을 자동 선택
- 단순 지식 질문은 빠른 비추론 버전 사용
- 복잡한 생성·코딩·분석 요청은 추론 버전 사용
답변은 구조화된 소제목, 여백, 굵은 글씨 등 가독성 중심으로 구성
Canvas에서는 프론트엔드 앱을 한 번에 생성(one-shot) 가능하지만, 코드 1,000줄 제한 및 일부 기능 제약 존재
reasoning 모델을 무료·기본으로 제공함으로써 대중 AI 경험의 질을 끌어올림

API에서의 GPT-5

GPT-5-mini: 입력 100만 토큰당 $0.25 → Google Gemini 2.5 Flash($0.30)보다 저렴
GPT-5 Standard: 입력 100만 토큰당 $1.25 → Google Gemini 2.5 Pro와 동일, Claude 4 Opus($15)의 1/12 가격
출력 토큰 단가는 o4-mini보다 높으나, 프롬프트 준수 능력(steerability) 이 뛰어나 세밀한 지시 작업에서 강점
가격 대비 성능으로 API 시장에서 경쟁사 사용자 전환 가능성이 높음

에이전틱 엔지니어링

정밀 백엔드 작업·디버깅·코드 이해에서는 우수하지만, 장기간 자율적 코드 작성·프론트엔드 대규모 작업에는 비효율적
Cursor·Codex CLI는 완전한 위임형(fully agentic) 개발보다는 페어 프로그래밍 중심으로 설계됨
Claude Code 대비 장기 작업 지속성·자율성 부족, 작업 분량 처리 속도가 낮음

사용 사례별 세부 평가

일상 작업: 모델 선택 필요 없이 빠른 질의응답, 연구 필요한 질문도 포괄적으로 처리, 환각 빈도 감소
페어 프로그래밍: 버그 수정·기능 구현·대규모 코드베이스 이해에 탁월, 속도·정확도 모두 높음
글쓰기: AI 특유 문장 패턴이 줄고 표현력이 다양해 초안 작성에 적합, 특정 스타일 학습 가능
에이전틱 엔지니어링: 장기 프로젝트·자율적 코드 생성에서는 멈춤이 잦고 출력 품질이 낮음
글 편집: 글 품질 평가·문장 자연스러움 판정에서 일관성이 떨어져 신뢰도 낮음

팀 라운드테이블 인사이트

Kieran Klaassen (Cora 총괄) : GPT-5는 세밀 지시 기반 반복 작업에 적합, Sonnet 3.5를 대체할 수준

"GPT-5는 당신이 시키는 대로 한다. 신중하게, 작은 단계를 밟으며 결코 코스에서 벗어나지 않는다 — 그리고 그것이 내가 가진 문제다. 코딩에는 강하지만 에이전틱에 최적화되어 있지 않다. 더 전통적인 반복 개발 프로세스에서, '이게 좋으니 이제 저걸 해 달라'고 지시하면 다루기 쉽다. 하지만 그건 2024년에 AI와 일하던 방식이다. GPT-5는 미래로의 도약이 아니라 Sonnet 3.5 킬러다."
Danny Aziz (Spiral 총괄) : 복잡한 코드 병합 등 정의된 범위 작업에 최적, 장기 리뷰·대규모 분석은 Claude 선호

"GPT-5의 마법 같은 순간은 두 개의 복잡한 코드베이스를 병합할 때였다. 내가 쓰던 오픈소스 프레임워크가 원하는 기능을 못하자, 다른 프레임워크의 코드를 합쳐 달라고 했다. 한 번에 끝나진 않았지만, 함께 목표에 다가가는 협업감이 느껴졌다. 명확하고 잘 정의된 코딩 작업에서 GPT-5를 즐겨 쓴다. 코드 리뷰처럼 장기 에이전틱 작업은 여전히 Claude Code를 쓰지만, 막혔을 때나 깊이 생각하기 귀찮을 때 GPT-5가 목적지까지 데려다준다."
Alex Duffy (AI 교육 책임자) : 무료 사용자에겐 GPT-4o 대비 큰 업그레이드, 대량 데이터 처리·정형화 작업에 강점

"소비자에게 GPT-5는 GPT-4o 대비 확실한 업그레이드다. 무료 이용자라면 체감 차이가 크다. 전문 사용자는 여전히 o3나 Opus 같은 특화 도구를 쓸 수 있지만, 개발자에게 GPT-5는 신뢰할 수 있고 프롬프트에 잘 따라오는 모델이라는 가치가 있다. 특히 방대한 정보를 고품질로 요약·정리하는 데 적합하다. 출력 토큰 가격은 o4-mini보다 비싸지만, 그만큼 지시어 준수력이 뛰어나다. GPT-5-mini는 Flash와 가격 경쟁이 가능하며 속도만 받쳐준다면 진짜 다크호스가 될 수 있다."
Naveen Naidu (EIR) : 4일간 풀지 못한 앱 프리징 버그를 GPT-5와 협업해 해결

"내가 만드는 AI 받아쓰기 앱 ‘Monologue’에서 앱 프리징 버그를 4일간 못 잡았다. Claude Code로 일요일에만 4시간을 붙잡았는데도 실패. GPT-5와는 마치 동료처럼 협업해 어느 부분이 문제인지 추적했고, 결국 정확한 버그를 찾아냈다."
Katie Parrott (작가·AI 운영 리드) : 초고 작성 시 Opus보다 더 만족, 인터뷰·질문 설계에 강점, vibe coding은 비효율

"글쓰기에서 GPT-5를 써서 개요를 초고로 바꿨는데 좋았다. 몇 번의 프롬프트로 Every의 스타일을 학습시킨 뒤 ‘Atlantic 기사와 인기 Hacker News 포스트의 교차’ 스타일을 주문하니 강한 결과물이 나왔다. AI 글에서 흔히 보이는 ‘It’s not just X, but Y’ 같은 상투적 패턴이 줄었다. 인터뷰 진행 시에도 질문의 뼈대를 잘 잡아 주었다. 초안 작성은 Opus보다 GPT-5가 더 만족스러웠다.
하지만 Codex에서 vibe coding을 할 때는 덜 효율적이었다. 작업 단위를 작게 나눠서만 처리하려 하고, 매번 ‘계속하기’를 눌러야 했다. Claude처럼 다음 단계 계획을 설명해주지도 않았다."
Yash Poojary (Sparkle 총괄): Swift 코딩에선 아쉬우나, 복잡한 기술 분석·설계·트레이드오프 평가에서는 최고

"나는 Swift만 중요하다. GPT-5는 처음에는 인상적이지 않았다. 특정 설정 프롬프트를 줘야만 쓸 만해졌다. 그래도 Swift 코딩에서는 Claude를 대체할 수준이 아니었다.
그러나 순수 연구에서는 최고였다. 예를 들어 맥에서 중복 파일을 찾는 방법을 묻자, 지금껏 본 AI 중 가장 기술적으로 정밀한 분석을 내놨다. 마치 140 IQ의 시스템 아키텍트가 세 번 시스템을 만들고 배운 교훈을 모두 설명해주는 느낌이었다. 순수 구현은 Claude를 쓰겠지만, 깊은 맥락·트레이드오프 분석·설계 논의에서는 GPT-5를 쓴다."
Dan’s mom (일반 사용자 관점) : 정보량·가독성·흐름 모두 ChatGPT 중 최고 수준이라고 평가

"이 모델은 정말 놀랍다. 지금까지 ChatGPT에서 받아본 답변보다 훨씬 포괄적이다. 정보가 잘 읽히고 흐름이 매끄럽다. 이 모델은 진짜 금덩이다."

벤치마크 상세 결과

글쓰기 평가: 동일 글에서도 결과 일관성 부족, Opus 대비 신뢰성 낮음
원샷 게임 제작: 안정적으로 실행되지만 창의성·재미는 부족, Opus 4.1이 더 나은 평가
AI Diplomacy: 기본 프롬프트 성능은 낮지만, 최적화된 지시어로는 Flash와 대등, steerability가 강점
불가능한 퍼즐: 1분 10초 만에 해결, o3 대비 월등히 빠름
원샷 음악 앱 제작: GarageBand 유사 기능 구현, UI는 단순, Opus 4 디자인 선호
기타 테스트: Pelican on a bicycle·thup 벤치마크에서 Claude와의 성격 차이 뚜렷

▲

anveloper 7달전 [-]

GPT-5 대부분 10초 이상 생각하는 답변만 받음. 이정도면 한 3~4번은 질문 했겠는데? 하면서도, 아 그럼 질문들 더 했어야겠네 싶은 느낌
기술적으로 뛰어나진건 모르겠고, 그냥 시간을 많이 써서 더 좋은 결과를 내는 방법으로만 보임

답변달기