3P by GN⁺ 1일전 | ★ favorite | 댓글 4개
  • 복잡한 작업을 처리하기 위한 고도화된 멀티모달 AI 모델로, 단순한 답변을 넘어선 문제 해결을 목표로 함
  • ARC-AGI-2 벤치마크에서 77.1%의 검증 점수를 기록해 이전 3 Pro 대비 두 배 이상의 추론 성능을 달성
  • 데이터 통합, 시각적 설명, 창의적 코딩 등 고난도 작업에서 향상된 추론력을 발휘
  • 텍스트, 오디오, 이미지, 비디오, 코드 저장소 등 다양한 입력 형태를 처리하며, 최대 100만 토큰 컨텍스트와 64K 토큰 출력을 지원함
  • Google은 이번 프리뷰를 통해 에이전틱 워크플로우 고도화와 향후 일반 공개를 위한 검증을 진행 중

Gemini 3.1 Pro 개요

  • Gemini 3.1 Pro는 복잡한 작업을 처리하기 위한 고도화된 멀티모달 AI 모델로, 단순한 답변을 넘어선 문제 해결을 목표로 함
    • Google은 이를 Gemini 3 Deep Think의 성과를 가능하게 한 핵심 지능 업그레이드
    • 텍스트, 오디오, 이미지, 비디오, 코드 저장소 등 다중 모달 입력을 처리
    • 최대 100만 토큰 컨텍스트 윈도우와 64K 토큰 출력을 지원
    • 이번 버전은 소비자용, 개발자용, 기업용 제품 전반에 순차적으로 배포 중
  • 배포 경로는 다음과 같음

성능 및 벤치마크

  • Gemini 3.1 Pro는 추론 능력(reasoning) 중심의 향상을 통해 복잡한 문제 해결에 최적화됨
    • ARC-AGI-2 벤치마크에서 77.1%의 검증 점수를 기록, 이전 3 Pro 대비 두 배 이상의 성능 향상
    • 주요 성능 비교 결과 (Gemini 3 Pro 대비):
      • ARC-AGI-2: 77.1% (vs 31.1%)
      • GPQA Diamond: 94.3% (vs 91.9%)
      • Terminal-Bench 2.0: 68.5% (vs 56.9%)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85.9% (vs 59.2%)
    • 이 벤치마크는 완전히 새로운 논리 패턴을 해결하는 모델의 능력을 평가함
  • Google은 이를 “더 똑똑하고 유능한 기본 모델”로 규정하며, 복잡한 문제 해결의 기반으로 제시

실제 활용 사례

  • Gemini 3.1 Pro는 고급 추론을 실용적 형태로 적용해 다양한 응용 가능성을 보여줌
    • 시각적 설명 생성: 복잡한 주제를 명확하고 시각적으로 설명하는 기능
    • 데이터 통합: 여러 데이터를 하나의 통합된 뷰로 합성
    • 창의적 프로젝트 구현: 예술적·디자인적 아이디어를 코드로 구현
  • 구체적 예시
    • 코드 기반 애니메이션: 텍스트 프롬프트로 웹사이트용 SVG 애니메이션을 생성, 해상도 손실 없이 파일 크기 최소화
    • 복잡한 시스템 통합: 국제우주정거장(ISS) 궤도를 실시간 시각화하는 대시보드 구축
    • 인터랙티브 디자인: 3D 스타링 무리 시뮬레이션을 코딩해 손 추적과 음악 반응형 인터페이스 구현
    • 창의적 코딩: 『폭풍의 언덕』 의 문학적 분위기를 반영한 현대적 포트폴리오 웹사이트 설계

배포 및 접근

  • Gemini 3.1 Pro는 프리뷰(preview) 형태로 공개되어 사용자 피드백을 수집 중
    • Google AI Pro 및 Ultra 요금제 사용자는 Gemini 앱에서 더 높은 사용 한도를 이용 가능
    • NotebookLM에서는 Pro 및 Ultra 사용자에게 독점 제공
    • 개발자와 기업은 AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio를 통해 접근 가능

향후 계획

  • Google은 Gemini 3 Pro 출시 이후 빠른 개선 속도를 유지하며, 이번 3.1 Pro 프리뷰를 통해 업데이트 검증 및 에이전틱 워크플로우 확장을 추진 중
  • 일반 공개(GA)는 검증 완료 후 진행될 예정이며, Google은 “사용자들이 이 모델로 무엇을 만들고 발견할지 기대한다”고 밝힘

빨리 코딩 성능을 claude opus 만큼 따라잡았으면 좋겠네요.

맞아요. 3.0 preview 모델 cli에 올라와서 사용했던 첫 날 너무 좋아서, 블로그에 소감도 쓰고 그랬는데,, 급격하게 ... 덕분에 현재는 codex, claude code 위주로 쓰고 있습니다. 근데 claude도 좀... 4.6 opus나 sonnet 괜찮은지 보고 아니면 코드는 codex, 그외 기타업무용으로 gemini 굳힐까봐요..

Hacker News 의견들
  • Gemini 3.1 Pro가 정말 기대됨
    지금까지는 거의 항상 Claude 쪽으로 끌렸지만, Claude Opus는 코딩에서 특히 뛰어남
    Gemini도 거의 훌륭하지만 아직 Claude 수준은 아님
    매달 ChatGPT Plus ↔ Gemini Pro ↔ Claude를 번갈아 구독하며 각 모델의 장점을 놓치지 않으려 함

  • 전 구글러로서 Gemini 3.1 Pro가 3.0보다 나아지길 바람
    하지만 개발용으로는 Gemini가 가장 답답한 모델이었음
    Claude Opus는 VS Code Copilot에서 사고 흐름과 응답이 균형 잡혀 있는데, Gemini는 thinking token만 쓰고 결과를 설명하지 않음
    종종 루프에 빠지고, 도구 사용도 서툴며, 파일을 엉뚱하게 수정함
    그래서 ‘계획은 Gemini, 실행은 Claude’ 전략을 썼지만, 결국 Claude만 쓰게 됨
    Anthropic이 실제 프로젝트 중심으로 모델을 다듬는 반면, Google은 실사용 테스트가 부족한 듯함

    • 내 프로젝트는 색공간 수학이 많은데 Gemini 3 Pro가 기초적인 타입 오류를 자주 냄
      int8을 float로 착각하거나, 정규화 여부를 잊어버림
      마치 기억력이 약한 사람처럼 느껴짐
      그래도 아키텍처 설계 논의에는 꽤 도움이 됨
    • Gemini 3를 Openclaw에서 쓸 때 시간당 10~20달러, 프롬프트당 1.5~3달러가 들었음
      비효율의 극치였음
    • 모델의 성능은 결국 튜닝과 도구 통합에 달려 있음
      Claude는 ‘코딩 과정’ 자체를 학습한 느낌이고, Anthropic은 사용자 피드백을 튜닝에 반영한 듯함
      Google은 범용 모델을 지향하다 보니 ‘모든 걸 조금씩 하는데 아무 것도 완벽하지 않은’ 상태로 보임
    • Gemini 3.0은 나에게 사용 불가 수준이었음
      Claude나 Codex는 문제 접근 방식을 설명하지만 Gemini는 그냥 실행해버림
      수정 요청을 무시하고 작업 영역을 오염시킴
      무료로 쓸 수 있음에도 거의 사용하지 않음
      Anthropic은 일찍이 ‘사용자가 제어할 수 있어야 한다’는 점을 깨달은 듯함
    • Gemini는 agentic 작업에 약함
      OpenAI는 Claude 수준으로 따라왔지만 Google은 아직 멀었음
  • 사람들은 Google의 비용 효율성을 과소평가함
    Opus의 절반 가격인데도 성능이 꽤 좋음
    Artificial Analysis 지표에 따르면 3.1은 Opus보다 40% 저렴하고 30% 빠름

    • 하지만 “1센트짜리 평범한 답변보다 2센트짜리 훌륭한 답변”이 낫다는 관점도 있음
      개발용이라면 월 300달러라도 최고의 모델을 쓰는 게 가치 있음
      소비자용 AI에서는 이 계산이 달라질 것임
    • 물론 일을 제대로 못하면 반값이라도 의미 없음
      그래도 성능이 따라온다면 가격 경쟁력은 매력적임
    • Opus가 20% 더 나은 코드를 만든다면 실제 프로젝트에서는 그 차이가 큼
      하지만 성능이 비슷하다면 50% 비용 절감은 큰 장점임
    • Gemini는 벤치마크 성적도 좋고, DeepMind 엔지니어들도 훌륭함
      개인적으로는 업무와 취미 코딩 모두에서 잘 작동함
      그런데도 커뮤니티에서는 혹평이 많아 의아함
    • Deepseek은 Opus의 2% 가격이지만 대부분 코딩용으로는 쓰지 않음
  • 요즘 모델들은 너무 강력함
    예전보다 훨씬 짧은 시간에 완전한 소프트웨어를 만들 수 있음
    하지만 버전 간 행동 차이가 너무 커서 매달 새로운 팀을 관리하는 기분임
    모델이 예고 없이 교체되거나 미묘하게 달라질 수도 있어 불안정한 기반 같음

    • Opus 4.6이 이전에 o4-mini가 풀지 못한 문제를 해결했음
      sqlite-chronicle 이슈에서 확인 가능
      이후 여러 프로젝트의 막힌 부분을 해결함
    • Anthropic, Google, OpenAI 모델 모두 써봤지만, 완전한 제품을 만들기엔 아직 부족함
      그래도 아이디어를 얻고 코드베이스를 시작하기엔 충분함
    • GPT 5.1 codex max로 만든 앱은 여전히 잘 작동함
      같은 코드라도 만든 모델이 다시 다루기 쉬운 듯한 자기 일관성이 있음
    • 실제로는 ‘천재적이지만 엉뚱한 엔지니어’를 관리하는 느낌임
      그래도 여전히 놀라운 기술임
    • “스시 한 끼 값으로 천재 엔지니어 한 달 고용”이라는 표현에 “그걸로 계산기나 만드는 거냐”는 농담도 나옴
  • Gemini 3.1 Pro의 가격은 변동 없음
    입력 $2/M, 출력 $12/M이며 공식 문서에 명시됨
    지식 컷오프는 2025년 1월, “medium thinking” 모드가 새로 추가됨
    Opus 4.6의 $5/$25 대비 가격 차이가 큼

    • 기업용 CLI 에이전트를 쓰려면 Google의 복잡한 절차가 문제임
      IAM 규칙 설정, 결제, 제품명 파악 등에서 막힘
      OpenAI나 Anthropic은 훨씬 간단함
      그래도 월 요금은 비슷함
    • Vendor-Bench 2에서 장기 추론 성능이 개선되지 않으면 CC에서 옮기지 않을 생각임
      Anthropic이 풀스택 최적화로 앞서가고 있음
    • 여전히 minimal reasoning이 없음
      Opus 4.6처럼 thinking을 끄고도 빠르고 똑똑한 모델은 아직 없음
    • Codex보다 저렴한 듯 보여 흥미로움
    • 지식 컷오프가 2025년 1월이라 약간 오래된 느낌임
  • Gemini 3는 아직 프리뷰 상태이고 2.5는 곧 폐기 예정임
    공식 폐기 일정을 보면 일부 모델은 대체 모델도 없이 종료됨
    Google이 실제 프로덕션 모델을 언제 내놓을지 의문임

    • 나도 동의함. 폐기되거나 미출시된 모델에 의존하는 건 위험함
      실제 운영 중인 시스템이 있어 큰 불안감을 느낌
    • 링크를 잘못 읽은 것 같음. 2.5-preview만 폐기되고, 2.5 정식은 2026년 가을까지 유지됨
    • Google이 많은 사용자가 의존하는 소프트웨어를 절대 폐기하지는 않겠지?
      Killed by Google을 보면 그 말이 얼마나 허무한지 알 수 있음
    • 이런 상황이야말로 “아, 이게 바로 Google스럽다”는 느낌임
    • 2.5 폐기 공지는 아직 없음
      3.0이 프리뷰라면 2.5는 최소 1년은 유지될 듯함
      공식 문서에도 “정확한 종료일은 사전 공지 후 안내”라고 명시되어 있음
  • Gemini가 UI와 데이터 동기화 레이스 컨디션 문제를 한 번에 해결했음
    Opus 4.6도 세 번 시도 후에야 풀었던 문제라 놀라웠음
    이전보다 덜 장황하고 핵심에 바로 도달함
    앞으로는 Gemini로 R&D, Opus/Sonnet 4.6으로 마무리하는 전략을 쓸 듯함

    • 나의 조합은 Opus 4.6으로 코드 리서치, GPT 5.3 codex로 코드 작성, Gemini로 과학·수학 알고리즘, Grok으로 보안 관련 질의 처리임
      여러 모델을 지원하는 통합 래퍼를 쓰면 모델 선택 고민이 줄어듦
      결국 중요한 건 “내 문제에 가장 맞는 모델”임
  • Gemini가 “세차장 질문”에 완벽히 답했음
    “걸어가면 세차할 차가 없으니 차를 몰고 가야 한다”는 식의 논리적 답변이었음

    • 혹시 훈련 데이터에 포함된 질문일 수도 있어, 대신 코끼리 세차 질문으로 바꿔봤음
      Gemini는 “코끼리를 데리고 가야 한다”고 논리적으로 설명하며 세부 이유까지 제시함
      꽤 인상적인 추론 능력이었음
    • GPT-OSS-120b도 같은 질문에 정답을 냈음
      다만 Gemini의 “비 오는 날 세차 예보” 멘트는 귀엽지만 과한 자신감처럼 느껴짐
    • 중요한 건, 정답을 맞혔다는 사실보다 이유를 제대로 추론했는가
    • 사실 Gemini 3 Pro와 Flash도 이미 이 질문에 정답을 냈었음
    • 하지만 답변이 너무 장황해서 오히려 피로함
  • “펠리컨이 자전거 타는 SVG” 테스트에서 Gemini가 좋은 결과를 냈음
    결과 링크 참고
    ARC-AGI 벤치마크 상승 덕분인지 시각적 생성 능력이 향상된 듯함

    • 애니메이션 SVG는 이제 기본 예시로 포함됨
      벤치마크 자체가 의미를 잃었고, 이제는 취향의 영역으로 보임
      새로운 ‘vibe check’ 벤치마크가 필요함
    • 내가 받은 결과는 펠리컨보다 3D 스타일이 강했음
      흥미로운 변화임
    • 하지만 여전히 내 개인 SVG 벤치마크(인체 심장 단면도)는 실패함
      결국 인간 디자이너의 손이 필요함
    • 모델이 더 발전하면 SVG 기반 실시간 UI나 인터랙티브 미디어 제작도 가능할 듯함
    • 반면 PostScript 같은 다른 벡터 포맷은 발전이 거의 없음
      아마도 Google이 SVG에 집중 최적화한 결과일 것임
  • Simon Willison의 블로그에 올라온 펠리컨 SVG는 꽤 훌륭했지만, 생성에 5분 이상 걸림
    출시 초기의 성능 문제로 보임

    • Gemini의 문제는 항상 “과하게 도와주려는” 태도임
      단순히 펠리컨과 자전거만 원했는데, 구름·태양·모자까지 추가함
      코딩에서도 마찬가지로 원치 않는 리팩터링과 주석 추가를 멈추지 않음
    • 웃긴 건, 이런 테스트 덕분에 Google이 실제로 동물+탈것 SVG 생성에 많은 노력을 쏟게 됐다는 점임
      Jeff Dean의 트윗도 그걸 암시함
    • 왜 LLM이 이렇게 SVG에 강한지 궁금함
      다른 공간적 이해는 약한데, 정확한 도형 생성은 탁월함
    • 이제 곧 모델들이 ‘펠리컨 자전거 SVG 생성’으로 벤치마크 경쟁을 할 듯함
    • Google 블로그의 공식 포스트를 보면, SVG 생성이 주요 사용 사례로 언급됨
      즉, 이건 일반적 능력 향상이 아니라 명시적 학습 결과일 가능성이 큼

아마도 얼마 안있다가 조용스럽게 성능이 너프될거 같은데, 얼마나 너프될지가 가장 중요할듯 하네요. (대부분의 AI모델이 시간이 지날수록 멍청해지는 느낌이 있긴 합니다만, 구글은 유독 심하더라고요)
3 Pro도 처음 나왔을 직후에는 좋았는데 한 일주일 정도 있다가 얘가 갑자기 멍청해져서 결국 사용을 포기했던 기억이 있네요.