Gemini-2.5-pro-preview-06-05

(deepmind.google)

1P by GN⁺ 8달전 | ★ favorite | 댓글 1개

정식 출시전에 최신 Gemini 2.5 Pro의 미리보기 버전이 이용 가능해짐
LMArena, WebDevArena 등 주요 평가에서 기존 모델 대비 24~35점 Elo 상승
코딩, 과학, 수학, 멀티모달 이해, 장문 컨텍스트 처리 등 주요 벤치마크에서 최상위 성능을 기록
입력 가격 $1.25, 출력 가격 $10(백만 토큰 기준) 으로 경쟁사 대비 저렴한 비용 구조

주요 벤치마크별 비교

Reasoning & Knowledge (Humanity's Last Exam): 21.6%로 OpenAI/Anthropic 등과 비슷한 수준, DeepSeek R1(14%)보다 우수
Science (GPQA diamond): 86.4%로 업계 최고 성능(단일 시도 기준)
Mathematics (AIME 2025): 88.0%로 OpenAI o3, DeepSeek R1과 유사한 수준, Anthropic Claude 4/3보다 높음
Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%로 코드 생성/수정 모두 높은 정확도
Agentic Coding (SWE-bench Verified): 59.6% (단일), 67.2% (다중 시도)로 Anthropic Claude 4에 비해 약간 낮으나 OpenAI/DeepSeek과 비슷
Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%로 실제 데이터 근거 생성에서 강점
Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval(이미지) 67.2%, VideoMMMU(비디오) 83.6%로 텍스트-이미지-비디오 모두 강점
Long Context (MRCR v2, 128K): 58.0%로 OpenAI, Anthropic, xAI 등 주요 경쟁 모델 대비 최고 성능

가격 및 지원 언어

입력 가격: $1.25 / 백만 토큰 (200K 이상은 $2.50)
출력 가격: $10 / 백만 토큰 (200K 이상은 $15)
지원 언어: 70개 이상 글로벌 언어(멀티폴리글롯 89.2%)

사용처 및 추가 특징

Google AI Studio, Vertex AI에서 즉시 프리뷰 사용 가능
Thinking Budget 등 개발자용 비용·지연 제어 기능 추가
코딩, 지식, 멀티모달, 장문 처리 등 실제 업무 활용에 적합한 기능 강화

결론

Gemini 2.5 Pro는 가격, 성능, 범용성, 멀티모달, 장문 컨텍스트 등 다양한 항목에서 경쟁사 대비 우수함
기업용 및 개발자용 AI 도입 시, 주요 벤치마크 기반의 명확한 비교와 비용 효율성을 함께 고려할 수 있음

▲

GN⁺ 8달전 [-]

Hacker News 의견

Google이 lmarena에서 약 25 ELO를 추가로 올린 것에 감탄하는 중, 이전 #1도 Gemini였다는 점에 주목하게 되는 경험 Gemini와 Claude Opus 4 둘 다 지난 몇 주간 충분히 사용해본 결과, 내 생각에 Opus가 차원이 다르다고 느껴진 경험 복잡한 TypeScript 문제들을 다루면서 Gemini는 어느 순간 같은 부분에서 맴돌거나, 심지어는 포기하고 못 하겠다고 말하는 일까지 처음 겪었지만 Opus는 쉽게 해결하는 인상 이 사례가 전체 성능의 단면을 보여주는 건 아니겠지만, Gemini는 코드를 억지로 돌아가게 만드는 느낌인 반면 Opus는 문제의 본질을 파악하고 더 깔끔하게 접근하는 방식이라는 점이 차별점 Opus가 상상력이 더 풍부하거나, 에이전트적 과제에 더 최적화된 듯한 느낌도 있었음 Opus는 playwright 스크립트를 만들어 DOM을 덤프하고 분석해서 상호작용 이슈를 점검하는 등 예상 못한 솔루션을 단발적으로 만들었던 점이 특히 인상적이었던 경험 Gemini는 코드 자체를 집요하게 읽으며 버그를 잡으려 하는데, 접근 방식의 한계가 있다고 느낌 그럼에도 불구하고 Gemini도 훌륭한 모델이며, 버전 4.0 전에만 해도 최고라고 생각했었음
- 나 개인적으로 Opus 4보다도 o3가 더 선호되는 상황에서, 최근 한 달간 AI 코드 생성 툴에 수백 달러를 쓰면서 나만의 랭킹을 세워봤음 1위는 o3, 세밀한 부분 처리, 문제의 본질 파악, 실제 프로덕션에 사용 가능한 고품질 코드 작성에서 무척 뛰어남 단점은 컷오프 윈도우와 비용, 그리고 툴 사용을 지나치게 좋아한다는 점 Rails 프로젝트에는 거의 문제가 없지만 때로 영향이 있음 2위는 Opus 4 (Claude Code 통해 사용), 성능도 좋고 o3에 비해 저렴해서 데일리 드라이버로 주로 사용 Opus 4가 계획·처음 초안을 만들면 o3가 이를 꼼꼼히 비평하고 피드백을 리스트로 만들어서 정말 완성도를 높이는 데 쓰고 있음 3위는 Gemini 2.5 Pro, 이번 최신 릴리스를 써보진 않았지만 전에는 순위 2위였음 지금은 Sonnet 4와 동급이거나 약간 더 우위, 상황 따라 다름 4위 Sonnet 4, 코드량은 많지만 직접적으로 코칭·감독하지 않으면 정말 질 좋은, 간결하고, 깊이 있는 코드를 뽑진 못함 내가 코드 퀄리티와 구성에 (이름, 재사용성 등) 집착이 심한 편이라, 지난달 Cursor 통계 기준 자동 제안 코드 중 33%만 수락하는 수준 최적 경로가 아닐 때는 실수 요청을 수정하고 다시 프롬프트를 다듬어가며 더 나은 결과 추구 중
- Gemini의 가장 뛰어난 점은 다른 모델 대비 검색 기능의 우수성 회사에서 도메인으로 스팸 보내는 곳에 이메일 작성 요청하니 호스팅 업체의 abuse 이메일, 도메인 정보, mx 서버, IP, 데이터센터 등 모두 찾아줌 논문을 팟캐스트로 변환 요청도 즉시 해줬고, 듣는 재미도 쏠쏠했음
- 이번 주 Claude 4와 Gemini 2.5에 동일한 과제를 줬을 때 Gemini는 정답을 주고 Claude는 제대로 못 해냄 특히 SQL 쿼리 비교처럼 어려운 과제가 아니라도 Gemini가 실제 문제를 찾아내는 경우가 많았음
- 실제로는 상황에 따라 다르게 느끼는 경험이 많았음 어떤 문제는 Gemini가 척척 해결했지만 바로 다음에는 아주 간단한 버그에서 막히는 혼란스러운 경험 o3와 sonnet도 마찬가지였고, 4.0은 아직 충분히 써보지 않아 평가 유보 여러 모델을 병렬로 평가해서 최적 솔루션 고르는 지원 필요성 느낌
- 혹시 o3로도 테스트 해봤냐는 질문받음 내 사용 사례에선 o3가 Opus 4보다 훨씬 인상 깊었던 경험
OpenAI의 시장 가치 측면에서 점점 걱정이 앞서게 되는 상황 강력한 경쟁자가 많아졌고, 이제 더이상 독보적 리더가 아니란 평가가 설득력 있음 3,000억 달러의 밸류에이션에서 앞으로 어떻게 더 투자 유치할지 궁금증 수익은 적고 하드웨어·전기 요금 등 비용은 계속 늘어갈 때 실질 가치 산정이 어려움 다음 세대 LLM이 새 데이터가 필요한 시점에서 Facebook, Google이 강점을 가져갈 듯한 구조 자체적으로 많은 데이터 비즈니스가 없는 OpenAI는 독점 데이터 경쟁에서 불리하다는 생각 연구와 사용자 앱 양쪽에서 리더였던 시절에야 높은 가치가 정당화됐지만, 지금은 신뢰의 근거가 빈약 신규 투자자가 OpenAI에서 얻을 이익이 의문 3,000억 달러 밸류에이션에는 보통 매출 2배수 수준인 1,500억 매출이 요구되고, 극한의 P/E(100배)로도 연 30억 이익, 10년 연속 두 배 성장 시나리오가 전제되어야 함 (아마존 2000년대처럼) 현재는 비영리/영리 구조 이슈도 있어 상장 자체가 쉽지 않을 수도 있음 Google의 성과에 축하를 보내며 AI 경쟁에서 가장 큰 승자가 될 가능성 높다고 평가
- OpenAI의 시장 내 입지에 오해가 크다는 의견 "chatgpt"는 이미 일상 동사로 자리잡았고, Claude나 Gemini는 일반인에게 전혀 알려지지 않았음 뭔가 획기적인 일이 일어나지 않는 한 대중이 다른 제품으로 갈아탈 이유도 없음 ChatGPT가 가진 대화 기록, 메모리, 내보내기 구조의 편리성만으로도 이동 장벽 충분 5억 명 활성 사용자를 상대로 OpenAI가 해야 할 일은 그저 품질 유지만 해도 됨 지금의 패러다임이 유지된다면, 선도자가 아니더라도 타사 기술을 따라잡는 것도 가능 일반인은 소폭 개선으론 제품을 바꾸지 않음
- 벨류에이션 계산에 오류가 있다는 지적 3,000억 달러의 두 배 매출이 아니라 1,500억 달러 매출이 맞음 하지만 기본 논지는 여전히 유효
- 현재 OpenAI가 분명히 더 뛰어난 영역은 이미지 생성 일러스트, 만화, 사진 편집 및 홈 프로젝트 아이디어 구상에선 차별점
- Google이 AI 경쟁에서 이기고 있어도, 검색 비즈니스는 여전히 잠식될 것이고 AI로 인해 시장 주도권을 통한 경제적 수익을 추출할 수 있을지는 미지수라는 견해 어쩔 수 없이 경쟁해야 하지만, 광고 중심 독점 체제 시절이 더 좋았을 것이라는 생각
- o3 pro와 GPT 5의 출시가 임박해 있기 때문에, OpenAI가 리더가 아니라고 단정하기엔 아직 이르다는 입장 만약 이 두 모델이 눈에 띄는 진전을 보여주지 못하면 그때 가서야 리더십 상실 고려 가능 지금은 최소한 Google 등과 어깨를 나란히 한다는 느낌
같은 모델을 프리뷰 버전만 세 개나 내놓는 것도 헷갈리는데, 마지막 두 날짜(05-06과 06-05)까지 섞여 더 혼란스러운 상황 하루 미뤘으면 명확했을 텐데 아쉬움 드는 상황
- 날짜가 애매해서 사실상 13일까지 미뤄야 헷갈리지 않는 구조 캐나다의 경우 영국식, 미국식 날짜 포맷이 섞여 정말 헷갈림 요즘은 y-m-d 포맷이 공식적으로 허용되고 점점 퍼지는 추세
- 05-06과 06-05가 헷갈리는 상황 자체가 OpenAI의 4o, o4 모델을 대놓고 놀리는 것 같은 느낌
- Gemini 2.5 pro에서 2.6 pro로 언제 넘어갈지 궁금증 Gemini 3에서는 아마 크기가 더 커질 거라는 예상
- 개발자들은 네이밍에 정말 약하다는 농담
Gemini에서만 느끼는 두 가지 이슈가 있음
1. 명시적으로 이름을 바꾸라고 하지 않았는데 변수명을 리네임하는 문제가 있고
2. 가끔씩 닫는 대괄호를 빠뜨린다는 점 변수명을 간결하게 만드는 걸 좋아해서 "json"만 쓰기도 하는데, 피드백은 고맙지만 그런 변경이 많아지면 코드 리뷰가 어려워지는 상황
- 구체적으로 Gemini가 잘못 처리하는 케이스를 들어봄 processing_class=tokenizer로 명확히 지정한 코드를 여러 번 수정해도 Gemini는 tokenizer=tokenizer로 자꾸 변경 심지어 전체 주석으로 DO NOT CHANGE라고 달아놔도 계속 잘못 바꾸는 문제 최신 버전(06-05)은 아직 못 써봤고, 직전 05-06에서도 같은 오류 반복
- 사실상 o1-pro가 Gemini와 함께 내 순위 최상위권임을 강조 하지만 Gemini는 불필요한 주석 및 관련 없는 코드 변경이 너무 많아서 실제 업무에는 쓰기 힘들다는 문제 아이디어 탐색 때는 도움이 되지만, 최종 솔루션과는 o1-pro를 쓰는 방식
- Gemini는 정말 어이없는 비실행 주석도 마구 추가함 "# Added this function", "# Changed this to fix the issue" 등 이런 건 커밋 메시지나 PR에나 어울리는데 굳이 코드에 주석을 넣는 점은 불편함
- ChatGPT도 특정 명령을 아예 무시하는 사례가 많음 예를 들면, "em dash나 en dash 쓰지 말라"고 아무리 강조해도 오히려 더 많이 집어넣음 여러 번 시도해도 한 번도 제대로 컨트롤한 적이 없는 경험
ChatGPT Plus와 Gemini Pro를 모두 유료로 결제해서 사용 중 ChatGPT는 계속해서 rate limit에 걸리기 때문에 해지 고민 중 Gemini/AI Studio는 아직 한 번도 rate limit에 걸린 적 없는 상황
- AI Studio는 실제로 API 계정을 백엔드에서 사용하며, Google Cloud 프리티어 프로젝트가 자동으로 생성됨 "get an api key" 페이지 하단에서 결제 계좌 연동 가능 무료 티어 API는 구글 서비스 약관상 상업적 사용에 해당되지 않을 수 있어, 프롬프트가 인간에 의해 검토되고 학습 데이터로 쓰일 수도 있음
- AI Studio는 API를 쓰기 때문에 사실상 일반 사용자가 유료 프리뷰 모델로 한계에 도달하는 경우는 극히 드묾
- Gemini가 ChatGPT보다 훨씬 마음에 들었지만 최근 Pro 요금제에 하루 100메시지 제한이 생김 AI Studio는 아직 제한이 없는 듯
- openrouter 같은 중계를 통해 API 쓰지 않는 이유가 있는지 궁금증
이전 Gemini 모델은 코딩 보조 용도로 Claude 3.7 Sonnet보다 떨어진다고 느껴짐 (4는 더 별로) 새로운 버전도 직접 평가 나오기 전까진 시도하지 않을 생각 인터넷에서 Gemini 찬사가 많은 게 개인 경험과 너무 달라서, 노골적 마케팅이나 인위적인 붐이 섞인 거 아닌지 의심
- 어떤 모델이든 실제로 무엇을 하느냐에 따라 평가가 다르다는 입장 Claude 3.5/3.7 Sonnet은 C/C++/Make/CMake에서는 아예 쓸모 없는 수준 잘못된 정보, 불가능한 코드 반환, 의미 없는 문법/API 생성, 논리적 모순 등 좋지 않은 경험 Gemini 2.5-pro와 o3는 압도적으로 좋았고, 팀 전체가 더 뛰어나다고 말할 정도 반면 Claude가 타입스크립트나 루비 등에는 강할지도 모르지만, 적어도 내 업무에서는 Gemini가 광고 과장 이상임
- Claude를 써보진 않았지만, Gemini는 일상적인 질문에서 ChatGPT나 Copilot보다 항상 좋은 답을 줬음 특히 검색 용도로 사용하는 상황(커맨드라인 방법, 제품 정보 등)에서 Gemini가 확실히 강점
- Aider에서 Sonnet과 Gemini를 번갈아 사용 중 이상하게 어떤 문제는 한 모델만 풀 수 있고, 미리 알 수 있는 패턴이 없음
- Claude 3.7 Sonnet이 코딩 어시스턴트로 Gemini보다 낫다는 의견이지만, 데이터 사이언스나 복잡한 파이썬 ETL에선 Claude가 실망스러웠고 o3가 훨씬 뛰어남
- Roo Code에서는 Claude가 도구 사용은 더 잘하지만, Gemini의 간결한 코드 스타일이 더 취향에 가까움 둘 다 섞어쓰거나, 하나가 실패하면 다른 걸 사용해서 문제 해결
프리뷰 버전에 날짜만 붙여 계속 릴리즈할 게 아니라 패치 번호만 올리면 좋겠다는 생각
- 기존 버전을 기반으로 제작된 생태계에 영향을 주지 않으려면, 주요 업데이트마다 새 모델로 분리해야 함
Aider 기준 82.2 기록 실제론 o3 high 공식점수에 비해 여전히 밀려있는 현황 Aider 리더보드 링크
- 82.2가 타 모델의 Percent correct 기준과 동일한지 질문 "pure" o3 (high)가 79.6%, "o3 (high) + gpt-4.1" 조합이 최고 82.7%에 해당 구 Gemini 2.5 Pro Preview 05-06은 76.9% 수준 꽤 큰 점프라 평가 Aider benchmarks가 현재로선 가장 신뢰받는 벤치마크임
- 훨씬 더 저렴하고 빠른 점이 특히나 놀라운 부분
- 언급된 점수는 예전 05-06 프리뷰, 오늘 공개된 새 버전은 아니라는 점 짚음
06-05가 03-25와 05-06 사이 간극을 메운다는 트윗 참고 관련 트윗
Claude 4 Sonnet과의 코드 비교에 관심 이 블로그 테이블에 따르면 Claude 4 Sonnet보다 확실히 떨어진다고 표시됨
- 실제로 대부분의 벤치마크가 프로그래밍(코딩) 관련이고, SWE-Bench만 Claude가 더 높은 점수가 나옴 어느 벤치마크가 실제 업무를 가장 잘 반영하는지 판단이 어렵지만, 커뮤니티에선 Aider Polyglot 평판이 높음

답변달기