13P by GN⁺ 16시간전 | ★ favorite | 댓글 3개
  • Google이 가장 지능적인 AI 모델 Gemini 3를 공개, 향상된 추론력과 멀티모달 이해 능력 제공
  • Gemini 3 Pro는 이전 세대 대비 모든 주요 벤치마크에서 최고 성능을 기록하며, 텍스트·이미지·비디오·코드 등 다양한 입력을 처리
  • Deep Think 모드는 복잡한 문제 해결을 위한 고도화된 추론 기능을 추가, Ultra 구독자에게 순차 제공 예정
  • Gemini 3는 학습·개발·계획 전반을 지원하며, Google Search, Gemini 앱, AI Studio, Vertex AI 등에서 사용 가능
  • Google은 Gemini 3를 통해 지능형 에이전트와 개인화된 AI 시대로의 전환을 가속화

Gemini 3 개요

  • Gemini 3는 Google이 개발한 가장 지능적인 AI 모델로, 사용자가 어떤 아이디어든 실현할 수 있도록 지원
  • 멀티모달 이해에이전트형 코딩(Agentic Coding) 기능을 결합해 텍스트, 이미지, 비디오, 오디오, 코드 등 다양한 입력을 통합 처리
  • Gemini 3 Pro는 AI Studio, Vertex AI, Gemini 앱, Google Antigravity 플랫폼 등 Google 생태계 전반에서 사용 가능
  • Deep Think 모드는 향상된 추론 능력으로 복잡한 문제 해결을 지원하며, Google AI Ultra 구독자에게 제공 예정

CEO 메시지

  • Sundar Pichai는 Gemini 프로젝트가 시작된 지 2년 만에 AI Overviews 월간 사용자 20억 명, Gemini 앱 6억 5천만 명, 13만 명 이상의 개발자 참여 등 성과를 언급
  • Google의 풀스택 AI 혁신 구조(인프라–연구–모델–제품)가 빠른 기술 확산을 가능하게 함
  • Gemini 3는 이전 세대의 멀티모달·추론·에이전트 기능을 통합한 모델로, 사용자의 의도와 맥락을 더 정확히 파악
  • Gemini 3는 Search의 AI Mode, Gemini 앱, AI Studio, Vertex AI, Google Antigravity 등에서 동시에 출시

Gemini 3 Pro 성능

  • Gemini 3 Pro는 2.5 Pro 대비 모든 주요 AI 벤치마크에서 우수한 성능을 기록
    • LMArena 리더보드 1501 Elo, Humanity’s Last Exam 37.5% , GPQA Diamond 91.9% , MathArena Apex 23.4% 달성
    • 멀티모달 벤치마크 MMMU-Pro 81% , Video-MMMU 87.6% , SimpleQA Verified 72.1% 기록
  • 정확하고 간결한 응답을 제공하며, 과학적 개념을 시각화하거나 창의적 아이디어를 구체화하는 데 활용 가능
  • 예시로 토카막 내 플라즈마 흐름 시각화 코드 생성핵융합 물리학을 주제로 한 시 작성 가능

Gemini 3 Deep Think

  • Deep Think 모드는 Gemini 3의 추론 및 멀티모달 이해 능력을 한층 강화
    • Humanity’s Last Exam 41.0% , GPQA Diamond 93.8% , ARC-AGI-2 45.1% 로 최고 수준 성능
  • 복잡한 문제 해결과 새로운 도전 과제에 대한 고급 추론 능력 입증

학습(Learn anything)

  • Gemini 3는 1백만 토큰 컨텍스트 윈도우멀티모달 추론을 활용해 학습 지원
    • 손글씨 레시피 번역 및 디지털 요리책 제작
    • 긴 강의·논문을 요약하고 인터랙티브 플래시카드나 시각화 코드 생성
    • 스포츠 영상 분석을 통한 개인 맞춤형 훈련 계획 생성
  • Google Search의 AI Mode는 Gemini 3 기반으로 몰입형 시각 레이아웃과 인터랙티브 도구를 실시간 생성

개발(Build anything)

  • Gemini 3는 제로샷 생성복잡한 프롬프트 처리에 강하며, WebDev Arena 1487 Elo 달성
    • Terminal-Bench 2.0 54.2% , SWE-bench Verified 76.2% 로 도구 사용 및 코딩 에이전트 성능 향상
  • Google AI Studio, Vertex AI, Gemini CLI, Google Antigravity에서 개발 가능
  • Cursor, GitHub, JetBrains, Manus, Replit 등 서드파티 플랫폼에서도 지원

Google Antigravity: 에이전트 중심 개발 환경

  • Google Antigravity는 Gemini 3 기반의 에이전트형 개발 플랫폼으로, 개발자가 작업 중심 수준에서 AI와 협업 가능
  • 에이전트가 에디터·터미널·브라우저에 직접 접근해 코드 작성, 실행, 검증을 자동 수행
  • Gemini 3 Pro와 Gemini 2.5 Computer Use 모델, Nano Banana 이미지 편집 모델이 통합되어 있음
  • 예시로 항공편 추적 앱을 에이전트가 스스로 설계·코딩·검증하는 워크플로우 구현

계획(Plan anything)

  • Gemini 3는 장기 계획 능력을 강화, Vending-Bench 2 리더보드 1위 달성
    • 시뮬레이션된 자판기 비즈니스 운영에서 1년간 안정적 의사결정 유지
  • 복잡한 다단계 작업 자동화 가능: 이메일 정리, 서비스 예약 등
  • Gemini Agent 기능을 통해 Ultra 구독자는 Gemini 앱에서 직접 체험 가능

책임 있는 개발

  • Gemini 3는 Google AI 중 가장 안전한 모델로, 프롬프트 주입 저항성사이버 공격 방어력 강화
  • Frontier Safety Framework에 따라 내부 테스트 및 외부 전문가 평가 수행
    • UK AISI, Apollo, Vaultis, Dreadnode 등 기관 참여
  • Gemini 3 모델 카드에서 세부 안전 평가 결과 공개

Gemini 3 시대의 시작

  • Gemini 3는 다음 경로로 배포 시작
    • Gemini 앱Search의 AI Mode
    • AI Studio, Google Antigravity, Gemini CLI를 통한 개발자 접근
    • Vertex AI 및 Gemini Enterprise를 통한 기업용 배포
  • Deep Think 모드는 추가 안전 검증 후 Ultra 구독자에게 제공 예정
  • 향후 Gemini 3 시리즈의 추가 모델 공개 예정, 사용자 피드백 기반 확장 계획

현재 구글에서 출시한 VSCode OSS 포크인 Antigravity ( https://antigravity.google/pricing ) 에서 무료로 사용할 수 있습니다
이외 gemini-cli에서는 현재 AI Ultra(월 36만)만 사용 가능하다는 것 같네요.

Hacker News 의견
  • 예전 XML 기반 계산기 앱을 Gemini에 입력했더니, 1분도 안 돼서 완전한 웹앱을 만들어줬음
    내가 수년간 커스텀 XML을 Android/Swing 앱으로 변환하는 컴파일러를 직접 만들었는데, Gemini는 형식 설명도 없이 그걸 해냄
    Lovable로 시도했을 땐 앱이 제대로 작동하지 않았고 크레딧만 낭비했는데, 이번엔 완전히 다른 수준이었음
    결과 링크

  • 최신 Project Euler 문제(#970)를 Gemini에 줘봤음. 훈련 데이터엔 없을 확률이 높았는데, 5분 10초 생각하더니 정답을 내는 Python 코드를 줬음
    인간 상위 3명의 풀이 시간은 각각 14분, 20분, 1시간 14분이었음
    이런 류의 문제는 모델이 RL 튜닝된 영역일 거라 예상했지만, 그래도 며칠 걸릴 문제를 몇 분 만에 푼 건 놀라움

    • 나도 Gemini 3 Pro Preview로 같은 문제를 풀려 했는데 4분 31초 만에 결과를 냈지만 오답이었음
      웹 검색을 금지했는데도 stackexchange, youtube 등 8개의 “출처”를 반환했음
      그래도 통찰력은 대부분 맞았고 꽤 유용한 도구임
      프롬프트 링크
    • 예전부터 테스트하던 Kattis의 low 문제를 다시 시도했는데, 처음으로 LLM이 통과했음
      ChatGPT 이후로 어떤 모델도 풀지 못했는데 Gemini 3가 드디어 성공함
    • 모델의 높은 Elo 점수는 단순히 속도 덕분일 수도 있음
      하지만 이런 결과를 보면, 10년 안에 퍼즐에선 Stockfish급 AI가 나올 것 같음
    • 참고로 현재 최신 문제는 Project Euler #970
    • gpt-5.1 thinking으로 시도했더니 그냥 인터넷에서 답을 검색해버렸음 😅
  • 예전에 Flash 2.5로 실험하던 아날로그 시계 위젯 프롬프트를 Gemini 3 Pro Preview에 넣었더니, 한 번에 완벽하게 작동하는 결과를 얻었음
    결과 링크

    • Flash 2.5도 나름 괜찮았음. 메트릭 UNIX 시계를 만들어줬는데, 초 단위를 킬로초(kiloseconds) 로 표현함
      하루는 86.4ks이고, 현재는 약 1.76기가초 AUNIX 시점임. 언젠가 20피트짜리 물리 시계를 만들고 싶음
    • 초침이 12에 닿을 때 “wiggle” 애니메이션이 안 나와서 못 보겠음 😂
    • 이 프로젝트는 Wes Bos의 30 Days of JavaScript 강좌에 포함된 예제라 훈련 데이터에 있었을 가능성이 높음
    • 나는 여기에 몇 가지 개선을 추가했는데, 틱 소리만 두 번째 시도에서 성공했음
      개선 버전 링크
    • 다른 사람이 쓴 프롬프트는 훨씬 단순했음. 내가 원래 쓰던 건 ${time} 변수를 포함한 HTML/CSS만 생성하는 형태였고, Gemini는 그걸 완전히 망쳤음
      실패 예시 링크
  • Pelican 벤치마크 관련 내 기록과 새 고난도 버전을 정리했음
    블로그 글

    • 이제 각 연구소마다 ‘펠리컨 담당자’ 가 있을 것 같음. SVG 자전거 타는 펠리컨을 더 잘 그리기 위해 밤낮으로 훈련 중일 듯
    • 몇 달 동안 펠리컨을 훈련했는데, 내가 벤치마크를 바꾸자마자 목표가 바뀐 셈임 😂
    • “자전거 타는 펠리컨”이 이미 훈련 데이터에 포함됐을 가능성이 높음
    • 포화 문제는 없다고 했지만, 결과를 보면 주요 연구소들이 비밀리에 펠리컨 언덕을 오르고 있었던 것 같음
    • Gemini 3의 지식 컷오프가 2025년 1월로 2.5와 동일한 게 아쉬움
      아마 같은 베이스 모델을 쓰고 RL 튜닝만 개선했을 가능성이 있음
  • Gemini 3 Pro Preview가 내 기본 Python 벤치마크에서 완전히 실패했음
    Gemini 2.5 Pro는 조금 더 근접했지만 여전히 오답이었음
    반면 gpt-5.1-thinking, Claude Sonnet 4.5, Opus 4.1은 통과함
    이런 걸 보면 벤치마크는 절대적 기준이 아님을 다시 느꼈음

    • “벤치마크가 무의미하다”는 건 과장임. 제한은 있지만 여전히 유용한 지표
      GPT-5 thinking이 실패한 “기본” Python 문제라면 어떤 건지 궁금함
    • 개인 벤치마크 하나로 결론 내리는 건 신뢰하기 어려움. 공유해주면 다 같이 검증할 수 있을 듯
    • 나는 “HTML 한 페이지에 Pac-Man 게임 만들기”를 자주 테스트함. Gemini 3도 2.5와 비슷하게 실패했음
    • 벤치마크의 의미는 설계 품질에 달려 있음. 단순히 공개 여부로 판단할 수 없음
    • Google이 발표한 SWEBench 점수에선 Gemini 3 Pro가 Claude Sonnet 4.5보다 낮았음. Opus 4.5가 더 잘할지도 궁금함
  • 의료 관련 문제를 다루던 중 Gemini 2.5 Pro는 절반 정도만 맞췄는데, Gemini 3.0은 완벽하게 해결했음
    관련 규정, 연구, 승인 절차까지 논리적으로 정리해줘서 실제로 의사결정에 도움이 됐음
    이런 모델은 진짜로 사람들의 삶을 바꿀 것 같음

  • Google의 발표 글에 “AI가 생성한 요약 읽기” 버튼이 있는 게 너무 웃겼음
    다음 단계는 “우리 AI가 당신의 AI 요약을 읽게 하세요”가 될 듯
    결국 Douglas Adams의 Electric Monk처럼, 믿음조차 자동화될지도 모름

    • 나도 회사에서 AI 프로젝트 이름을 Electric Monk로 하려 했는데 너무 논란이라 Electric Mentor로 바꿨음
    • 관련해서 SMBC 만화가 아주 적절함
    • 이제 AI가 클라우드 장애 해결까지 자동화해주면 좋겠음
    • 개발자뿐 아니라 매니저 역할까지 AI가 대체할 날이 머지않은 듯함
  • 내가 좋아하는 벤치마크는 긴 회의 오디오 파일 요약 및 화자 구분
    Gemini 2.5는 요약은 괜찮았지만 화자 구분이 엉망이었고, 3.0은 완벽하게 맞춤

    • 나는 90분짜리 팟캐스트로 실험했는데, Gemini 3는 환각된 인용문을 만들고 타임스탬프도 전부 틀림
      긴 오디오에선 여전히 한계가 있음
    • ElevenLabsSoniox처럼 전용 오디오 모델을 쓰면 훨씬 정확함
    • 어떤 프롬프트를 쓰는지 궁금함
    • 나도 팟캐스트 화자 구분 프로젝트를 만들고 있는데, 꽤 잘 작동함
    • Parakeet TDT v3가 이런 작업엔 아주 적합할 듯함
  • 내가 만든 5개의 다리를 가진 개 사진 테스트에서 Gemini 3도 실패했음
    그래도 다른 모델과 달리 다섯 번째 다리를 인식하긴 했지만, 그걸 다른 신체로 착각했음
    시각적 인식은 여전히 큰 과제임

    • 지각(perception) 은 진화가 수십억 년 동안 다듬은 영역이라, 계산적으로 훨씬 어려운 문제임
    • 아마도 안전 필터의 블라인드 스팟 때문에 그런 오판이 생긴 걸 수도 있음