# Gemini 3.1 Pro

> Clean Markdown view of GeekNews topic #26827. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26827](https://news.hada.io/topic?id=26827)
- GeekNews Markdown: [https://news.hada.io/topic/26827.md](https://news.hada.io/topic/26827.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-20T08:32:55+09:00
- Updated: 2026-02-20T08:32:55+09:00
- Original source: [blog.google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)
- Points: 4
- Comments: 4

## Summary

**Gemini 3.1 Pro**는 복잡한 문제 해결을 위한 **고도화된 멀티모달 AI 모델**로, 텍스트·이미지·코드 등 다양한 입력을 통합해 단순한 답변을 넘어선 문제 해결을 목표로 합니다. **ARC‑AGI‑2 벤치마크 77.1%** 로 이전 3 Pro 대비 두 배 이상의 성능을 달성했으며, 데이터 통합과 시각적 설명, 창의적 코딩 등 고난도 영역에서 향상된 추론력을 보여줍니다. Antigravity 에서 코드 생성할때 꽤 훌륭한 결과를 낸다는 평가가 많네요.

## Topic Body

- **복잡한 작업을 처리하기 위한 고도화된 멀티모달 AI 모델**로, 단순한 답변을 넘어선 문제 해결을 목표로 함  
- **ARC-AGI-2 벤치마크**에서 77.1%의 검증 점수를 기록해 이전 3 Pro 대비 **두 배 이상의 추론 성능**을 달성  
- **데이터 통합, 시각적 설명, 창의적 코딩** 등 고난도 작업에서 향상된 추론력을 발휘  
- 텍스트, 오디오, 이미지, 비디오, 코드 저장소 등 **다양한 입력 형태**를 처리하며, 최대 **100만 토큰 컨텍스트**와 64K 토큰 출력을 지원함  
- Google은 이번 프리뷰를 통해 **에이전틱 워크플로우 고도화**와 향후 일반 공개를 위한 검증을 진행 중  
  
---  
  
### Gemini 3.1 Pro 개요  
- Gemini 3.1 Pro는 **복잡한 작업을 처리하기 위한 고도화된 멀티모달 AI 모델**로, 단순한 답변을 넘어선 문제 해결을 목표로 함  
  - Google은 이를 **Gemini 3 Deep Think**의 성과를 가능하게 한 핵심 지능 업그레이드  
  - 텍스트, 오디오, 이미지, 비디오, 코드 저장소 등 **다중 모달 입력**을 처리  
  - 최대 **100만 토큰 컨텍스트 윈도우**와 64K 토큰 출력을 지원  
  - 이번 버전은 **소비자용, 개발자용, 기업용 제품 전반**에 순차적으로 배포 중  
- 배포 경로는 다음과 같음  
  - 개발자: Gemini API in **[Google AI Studio](https://aistudio.google.com/prompts/new_chat?model=gemini-3.1-pro-preview), [Gemini CLI](https://geminicli.com/), [Antigravity](https://antigravity.google/), [Android Studio](http://d.android.com/studio)**  
  - 기업: **[Vertex AI, Gemini Enterprise](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-pro-on-gemini-cli-gemini-enterprise-and-vertex-ai)**  
  - 소비자: **Gemini 앱, NotebookLM**  
  
### 성능 및 벤치마크  
- Gemini 3.1 Pro는 **추론 능력(reasoning)** 중심의 향상을 통해 복잡한 문제 해결에 최적화됨  
  - **ARC-AGI-2 벤치마크**에서 77.1%의 검증 점수를 기록, 이전 3 Pro 대비 두 배 이상의 성능 향상  
  - 주요 성능 비교 결과 (Gemini 3 Pro 대비):  
    - **ARC-AGI-2**: 77.1% (vs 31.1%)  
    - **GPQA Diamond**: 94.3% (vs 91.9%)  
    - **Terminal-Bench 2.0**: 68.5% (vs 56.9%)  
    - **LiveCodeBench Pro**: Elo 2887 (vs 2439)  
    - **BrowseComp**: 85.9% (vs 59.2%)  
  - 이 벤치마크는 완전히 새로운 논리 패턴을 해결하는 모델의 능력을 평가함  
- Google은 이를 “**더 똑똑하고 유능한 기본 모델**”로 규정하며, 복잡한 문제 해결의 기반으로 제시  
  
### 실제 활용 사례  
- Gemini 3.1 Pro는 **고급 추론을 실용적 형태로 적용**해 다양한 응용 가능성을 보여줌  
  - **시각적 설명 생성**: 복잡한 주제를 명확하고 시각적으로 설명하는 기능  
  - **데이터 통합**: 여러 데이터를 하나의 통합된 뷰로 합성  
  - **창의적 프로젝트 구현**: 예술적·디자인적 아이디어를 코드로 구현  
- 구체적 예시  
  - **코드 기반 애니메이션**: 텍스트 프롬프트로 웹사이트용 **SVG 애니메이션**을 생성, 해상도 손실 없이 파일 크기 최소화  
  - **복잡한 시스템 통합**: **국제우주정거장(ISS)** 궤도를 실시간 시각화하는 대시보드 구축  
  - **인터랙티브 디자인**: **3D 스타링 무리 시뮬레이션**을 코딩해 손 추적과 음악 반응형 인터페이스 구현  
  - **창의적 코딩**: **『폭풍의 언덕』** 의 문학적 분위기를 반영한 현대적 포트폴리오 웹사이트 설계  
  
### 배포 및 접근  
- Gemini 3.1 Pro는 **프리뷰(preview)** 형태로 공개되어 사용자 피드백을 수집 중  
  - **Google AI Pro 및 Ultra 요금제 사용자**는 Gemini 앱에서 더 높은 사용 한도를 이용 가능  
  - **NotebookLM**에서는 Pro 및 Ultra 사용자에게 독점 제공  
  - 개발자와 기업은 **AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio**를 통해 접근 가능  
  
### 향후 계획  
- Google은 Gemini 3 Pro 출시 이후 빠른 개선 속도를 유지하며, 이번 3.1 Pro 프리뷰를 통해 **업데이트 검증 및 에이전틱 워크플로우 확장**을 추진 중  
- 일반 공개(GA)는 검증 완료 후 진행될 예정이며, Google은 “**사용자들이 이 모델로 무엇을 만들고 발견할지 기대한다**”고 밝힘  
  
* [Preview 보기](https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemini-3.1-pro-preview?pli=1)  
* [Gemini 3.1 Pro Model Card](https://deepmind.google/models/model-cards/gemini-3-1-pro/)

## Comments



### Comment 51456

- Author: jwh926
- Created: 2026-02-20T10:12:31+09:00
- Points: 1

빨리 코딩 성능을 claude opus 만큼 따라잡았으면 좋겠네요.

### Comment 51455

- Author: ifmkl
- Created: 2026-02-20T10:10:02+09:00
- Points: 1

맞아요. 3.0 preview 모델 cli에 올라와서 사용했던 첫 날 너무 좋아서, 블로그에 소감도 쓰고 그랬는데,, 급격하게 ... 덕분에 현재는 codex, claude code 위주로 쓰고 있습니다. 근데 claude도 좀... 4.6 opus나 sonnet 괜찮은지 보고 아니면 코드는 codex, 그외 기타업무용으로 gemini 굳힐까봐요..

### Comment 51444

- Author: neo
- Created: 2026-02-20T08:32:56+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47074735) 
- Gemini 3.1 Pro가 정말 기대됨  
  지금까지는 거의 항상 Claude 쪽으로 끌렸지만, **Claude Opus**는 코딩에서 특히 뛰어남  
  Gemini도 거의 훌륭하지만 아직 Claude 수준은 아님  
  매달 ChatGPT Plus ↔ Gemini Pro ↔ Claude를 번갈아 구독하며 각 모델의 장점을 놓치지 않으려 함  

- 전 구글러로서 Gemini 3.1 Pro가 3.0보다 나아지길 바람  
  하지만 개발용으로는 Gemini가 가장 **답답한 모델**이었음  
  Claude Opus는 VS Code Copilot에서 사고 흐름과 응답이 균형 잡혀 있는데, Gemini는 **thinking token**만 쓰고 결과를 설명하지 않음  
  종종 루프에 빠지고, 도구 사용도 서툴며, 파일을 엉뚱하게 수정함  
  그래서 ‘계획은 Gemini, 실행은 Claude’ 전략을 썼지만, 결국 Claude만 쓰게 됨  
  Anthropic이 실제 프로젝트 중심으로 모델을 다듬는 반면, Google은 실사용 테스트가 부족한 듯함
  - 내 프로젝트는 색공간 수학이 많은데 Gemini 3 Pro가 **기초적인 타입 오류**를 자주 냄  
    int8을 float로 착각하거나, 정규화 여부를 잊어버림  
    마치 기억력이 약한 사람처럼 느껴짐  
    그래도 아키텍처 설계 논의에는 꽤 도움이 됨
  - Gemini 3를 Openclaw에서 쓸 때 시간당 10~20달러, 프롬프트당 1.5~3달러가 들었음  
    **비효율의 극치**였음
  - 모델의 성능은 결국 **튜닝과 도구 통합**에 달려 있음  
    Claude는 ‘코딩 과정’ 자체를 학습한 느낌이고, Anthropic은 사용자 피드백을 튜닝에 반영한 듯함  
    Google은 범용 모델을 지향하다 보니 ‘모든 걸 조금씩 하는데 아무 것도 완벽하지 않은’ 상태로 보임
  - Gemini 3.0은 나에게 **사용 불가 수준**이었음  
    Claude나 Codex는 문제 접근 방식을 설명하지만 Gemini는 그냥 실행해버림  
    수정 요청을 무시하고 작업 영역을 오염시킴  
    무료로 쓸 수 있음에도 거의 사용하지 않음  
    Anthropic은 일찍이 ‘사용자가 제어할 수 있어야 한다’는 점을 깨달은 듯함
  - Gemini는 **agentic 작업**에 약함  
    OpenAI는 Claude 수준으로 따라왔지만 Google은 아직 멀었음  

- 사람들은 Google의 **비용 효율성**을 과소평가함  
  Opus의 절반 가격인데도 성능이 꽤 좋음  
  [Artificial Analysis 지표](https://artificialanalysis.ai/?speed=intelligence-vs-speed&media-leaderboards=image-to-video#intelligence-vs-cost-to-run-artificial-analysis-intelligence-index)에 따르면 3.1은 Opus보다 40% 저렴하고 30% 빠름
  - 하지만 “1센트짜리 평범한 답변보다 2센트짜리 훌륭한 답변”이 낫다는 관점도 있음  
    개발용이라면 월 300달러라도 최고의 모델을 쓰는 게 가치 있음  
    소비자용 AI에서는 이 계산이 달라질 것임
  - 물론 **일을 제대로 못하면** 반값이라도 의미 없음  
    그래도 성능이 따라온다면 가격 경쟁력은 매력적임
  - Opus가 20% 더 나은 코드를 만든다면 실제 프로젝트에서는 그 차이가 큼  
    하지만 성능이 비슷하다면 50% 비용 절감은 큰 장점임
  - Gemini는 벤치마크 성적도 좋고, DeepMind 엔지니어들도 훌륭함  
    개인적으로는 업무와 취미 코딩 모두에서 잘 작동함  
    그런데도 커뮤니티에서는 혹평이 많아 의아함
  - Deepseek은 Opus의 2% 가격이지만 대부분 코딩용으로는 쓰지 않음  

- 요즘 모델들은 너무 강력함  
  예전보다 훨씬 짧은 시간에 완전한 소프트웨어를 만들 수 있음  
  하지만 버전 간 **행동 차이**가 너무 커서 매달 새로운 팀을 관리하는 기분임  
  모델이 예고 없이 교체되거나 미묘하게 달라질 수도 있어 **불안정한 기반** 같음
  - Opus 4.6이 이전에 o4-mini가 풀지 못한 문제를 해결했음  
    [sqlite-chronicle 이슈](https://github.com/simonw/sqlite-chronicle/issues/20)에서 확인 가능  
    이후 여러 프로젝트의 막힌 부분을 해결함
  - Anthropic, Google, OpenAI 모델 모두 써봤지만, 완전한 제품을 만들기엔 아직 부족함  
    그래도 아이디어를 얻고 코드베이스를 시작하기엔 충분함
  - GPT 5.1 codex max로 만든 앱은 여전히 잘 작동함  
    같은 코드라도 만든 모델이 다시 다루기 쉬운 듯한 **자기 일관성**이 있음
  - 실제로는 ‘천재적이지만 엉뚱한 엔지니어’를 관리하는 느낌임  
    그래도 여전히 놀라운 기술임
  - “스시 한 끼 값으로 천재 엔지니어 한 달 고용”이라는 표현에 “그걸로 계산기나 만드는 거냐”는 농담도 나옴  

- Gemini 3.1 Pro의 **가격은 변동 없음**  
  입력 $2/M, 출력 $12/M이며 [공식 문서](https://ai.google.dev/gemini-api/docs/pricing)에 명시됨  
  지식 컷오프는 2025년 1월, “medium thinking” 모드가 새로 추가됨  
  Opus 4.6의 $5/$25 대비 가격 차이가 큼
  - 기업용 CLI 에이전트를 쓰려면 Google의 **복잡한 절차**가 문제임  
    IAM 규칙 설정, 결제, 제품명 파악 등에서 막힘  
    OpenAI나 Anthropic은 훨씬 간단함  
    그래도 월 요금은 비슷함
  - Vendor-Bench 2에서 장기 추론 성능이 개선되지 않으면 CC에서 옮기지 않을 생각임  
    Anthropic이 **풀스택 최적화**로 앞서가고 있음
  - 여전히 **minimal reasoning**이 없음  
    Opus 4.6처럼 thinking을 끄고도 빠르고 똑똑한 모델은 아직 없음
  - Codex보다 저렴한 듯 보여 흥미로움
  - 지식 컷오프가 2025년 1월이라 약간 오래된 느낌임  

- Gemini 3는 아직 **프리뷰 상태**이고 2.5는 곧 폐기 예정임  
  [공식 폐기 일정](https://ai.google.dev/gemini-api/docs/deprecations)을 보면 일부 모델은 대체 모델도 없이 종료됨  
  Google이 실제 프로덕션 모델을 언제 내놓을지 의문임
  - 나도 동의함. 폐기되거나 미출시된 모델에 의존하는 건 위험함  
    실제 운영 중인 시스템이 있어 **큰 불안감**을 느낌
  - 링크를 잘못 읽은 것 같음. 2.5-preview만 폐기되고, 2.5 정식은 2026년 가을까지 유지됨
  - Google이 많은 사용자가 의존하는 소프트웨어를 절대 폐기하지는 않겠지?  
    [Killed by Google](https://killedbygoogle.com/)을 보면 그 말이 얼마나 허무한지 알 수 있음
  - 이런 상황이야말로 “아, 이게 바로 Google스럽다”는 느낌임
  - 2.5 폐기 공지는 아직 없음  
    3.0이 프리뷰라면 2.5는 최소 1년은 유지될 듯함  
    공식 문서에도 “정확한 종료일은 사전 공지 후 안내”라고 명시되어 있음  

- Gemini가 **UI와 데이터 동기화 레이스 컨디션** 문제를 한 번에 해결했음  
  Opus 4.6도 세 번 시도 후에야 풀었던 문제라 놀라웠음  
  이전보다 덜 장황하고 핵심에 바로 도달함  
  앞으로는 Gemini로 R&D, Opus/Sonnet 4.6으로 마무리하는 전략을 쓸 듯함
  - 나의 조합은 Opus 4.6으로 코드 리서치, GPT 5.3 codex로 코드 작성, Gemini로 과학·수학 알고리즘, Grok으로 보안 관련 질의 처리임  
    여러 모델을 지원하는 **통합 래퍼**를 쓰면 모델 선택 고민이 줄어듦  
    결국 중요한 건 “내 문제에 가장 맞는 모델”임  

- Gemini가 “**세차장 질문**”에 완벽히 답했음  
  “걸어가면 세차할 차가 없으니 차를 몰고 가야 한다”는 식의 논리적 답변이었음  
  - 혹시 훈련 데이터에 포함된 질문일 수도 있어, 대신 **코끼리 세차 질문**으로 바꿔봤음  
    Gemini는 “코끼리를 데리고 가야 한다”고 논리적으로 설명하며 세부 이유까지 제시함  
    꽤 인상적인 추론 능력이었음
  - GPT-OSS-120b도 같은 질문에 정답을 냈음  
    다만 Gemini의 “비 오는 날 세차 예보” 멘트는 귀엽지만 과한 자신감처럼 느껴짐
  - 중요한 건, 정답을 맞혔다는 사실보다 **이유를 제대로 추론했는가**임
  - 사실 Gemini 3 Pro와 Flash도 이미 이 질문에 정답을 냈었음
  - 하지만 답변이 너무 **장황**해서 오히려 피로함  

- “펠리컨이 자전거 타는 SVG” 테스트에서 Gemini가 좋은 결과를 냈음  
  [결과 링크](https://www.svgviewer.dev/s/NeKACuHj) 참고  
  ARC-AGI 벤치마크 상승 덕분인지 **시각적 생성 능력**이 향상된 듯함
  - 애니메이션 SVG는 이제 기본 예시로 포함됨  
    벤치마크 자체가 의미를 잃었고, 이제는 **취향의 영역**으로 보임  
    새로운 ‘vibe check’ 벤치마크가 필요함
  - 내가 받은 결과는 펠리컨보다 **3D 스타일**이 강했음  
    흥미로운 변화임
  - 하지만 여전히 내 개인 SVG 벤치마크(인체 심장 단면도)는 실패함  
    결국 **인간 디자이너의 손**이 필요함
  - 모델이 더 발전하면 **SVG 기반 실시간 UI나 인터랙티브 미디어** 제작도 가능할 듯함
  - 반면 PostScript 같은 다른 벡터 포맷은 발전이 거의 없음  
    아마도 Google이 **SVG에 집중 최적화**한 결과일 것임  

- [Simon Willison의 블로그](https://simonwillison.net/2026/Feb/19/gemini-31-pro/)에 올라온 펠리컨 SVG는 꽤 훌륭했지만, 생성에 5분 이상 걸림  
  출시 초기의 **성능 문제**로 보임
  - Gemini의 문제는 항상 “과하게 도와주려는” 태도임  
    단순히 펠리컨과 자전거만 원했는데, 구름·태양·모자까지 추가함  
    코딩에서도 마찬가지로 **원치 않는 리팩터링**과 주석 추가를 멈추지 않음
  - 웃긴 건, 이런 테스트 덕분에 Google이 실제로 **동물+탈것 SVG 생성**에 많은 노력을 쏟게 됐다는 점임  
    [Jeff Dean의 트윗](https://x.com/jeffdean/status/2024525132266688757?s=46&t=ZjF9if4qtE9ppAnug9UOPQ)도 그걸 암시함
  - 왜 LLM이 이렇게 SVG에 강한지 궁금함  
    다른 공간적 이해는 약한데, **정확한 도형 생성**은 탁월함
  - 이제 곧 모델들이 ‘펠리컨 자전거 SVG 생성’으로 벤치마크 경쟁을 할 듯함
  - Google 블로그의 [공식 포스트](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)를 보면, SVG 생성이 주요 사용 사례로 언급됨  
    즉, 이건 일반적 능력 향상이 아니라 **명시적 학습 결과**일 가능성이 큼

### Comment 51454

- Author: clumsily
- Created: 2026-02-20T10:05:28+09:00
- Points: 1
- Parent comment: 51444
- Depth: 1

아마도 얼마 안있다가 조용스럽게 성능이 너프될거 같은데, 얼마나 너프될지가 가장 중요할듯 하네요. (대부분의 AI모델이 시간이 지날수록 멍청해지는 느낌이 있긴 합니다만, 구글은 유독 심하더라고요)  
3 Pro도 처음 나왔을 직후에는 좋았는데 한 일주일 정도 있다가 얘가 갑자기 멍청해져서 결국 사용을 포기했던 기억이 있네요.
