Gemini 3 Deep Think 공개

(blog.google)

6P by GN⁺ 6시간전 | ★ favorite | 댓글 1개

과학·연구·공학 문제 해결을 목표로 한 Google의 AI 모델 Gemini 3 Deep Think가 대규모 업그레이드됨
새로운 버전은 과학자 및 연구자와의 협력을 통해 불완전한 데이터나 명확한 정답이 없는 복잡한 문제를 다루도록 설계
수학·프로그래밍·물리·화학 등 다양한 분야의 국제 올림피아드 및 벤치마크에서 금메달 수준 성능을 달성
실제 연구와 엔지니어링 응용을 지원하며, 스케치로부터 3D 프린트 가능한 모델 생성 등 실용적 기능을 제공
Google AI Ultra 구독자와 Gemini API 조기 접근 프로그램을 통해 이용 가능, 연구자·기업 대상 확장 예정

Gemini 3 Deep Think 주요 개요

Gemini 3 Deep Think는 과학·연구·공학 분야의 현대적 도전 과제 해결을 위해 설계된 전문 추론 모드
- Google은 과학자 및 연구자와 긴밀히 협력해, 명확한 정답이 없거나 데이터가 불완전한 문제를 다루는 기능을 강화함
- 이론적 지식과 실용적 엔지니어링 활용성을 결합해 실제 응용 중심의 모델로 발전
이번 업그레이드는 Gemini 앱을 통해 Google AI Ultra 구독자에게 제공되며, Gemini API를 통해 연구자·엔지니어·기업이 조기 접근 신청 가능

초기 사용자 사례

Rutgers University의 수학자 Lisa Carbone은 고에너지 물리학 관련 수학 논문 검토에 Deep Think를 활용, 인간 검토를 통과한 논리적 오류를 발견
Duke University의 Wang Lab은 반도체 소재 탐색을 위한 복잡한 결정 성장 공정을 최적화, 100μm 이상 박막 성장 레시피를 설계
Google Platforms & Devices 부문의 Anupam Pathak은 물리적 부품 설계 가속화를 위해 Deep Think를 테스트

수학적·알고리듬적 정밀성 향상

Deep Think는 국제 수학 올림피아드와 국제 대학생 프로그래밍 대회에서 금메달 수준 성과를 기록
최신 버전은 다음과 같은 학문적 벤치마크 최고치를 달성
- Humanity’s Last Exam: 48.4% (도구 미사용)
- ARC-AGI-2: 84.6% (ARC Prize Foundation 검증)
- Codeforces: Elo 3455
- International Math Olympiad 2025: 금메달 수준 성능
Deep Think는 수학적 탐구를 수행하는 전문 에이전트 개발에도 활용됨

복잡한 과학 영역 탐색

수학·프로그래밍을 넘어 화학·물리학 등 과학 전반에서도 성능 향상
- 2025년 국제 물리·화학 올림피아드 필기 부문에서 금메달 수준 결과 달성
- 이론물리 벤치마크 CMT-Benchmark에서 50.5% 점수 기록
이러한 성능은 Deep Think의 과학적 추론 능력 확장을 입증

실제 엔지니어링 가속화

Deep Think는 복잡한 데이터 해석과 물리 시스템 모델링을 지원, 연구자와 엔지니어의 실무 활용을 목표로 함
Gemini API를 통해 실제 연구 환경에서의 접근성을 확대 중
예시로, 사용자는 스케치를 입력해 3D 프린트 가능한 모델을 생성할 수 있으며, Deep Think가 이를 분석·모델링·파일 생성까지 수행

접근 및 이용

Google AI Ultra 구독자는 Gemini 앱에서 즉시 Deep Think를 사용할 수 있음
연구자·엔지니어·기업은 Gemini API를 통한 조기 접근 프로그램에 참여 신청 가능
Google은 Deep Think를 통해 새로운 과학적 발견과 응용 사례가 확산되기를 기대함

▲

GN⁺ 6시간전 [-]

Hacker News 의견들

Arc-AGI-2 점수가 84.6% 라니 놀라움
공식 블로그 글을 보면 Gemini 3 Deep Think의 세부 내용이 있음
- 예전부터 Gemini 3는 믿기 힘들 정도로 범용적(general) 이라는 인상을 받았음
  텍스트 설명만으로 Balatro(ante 8)를 이길 수 있었음. 인간에게는 어렵지 않지만, LLM이 특정 훈련 없이 해낸다는 게 놀라움
  Balatro Bench에서 테스트했는데, Deepseek은 이 게임을 전혀 못함
- 불과 1년 전만 해도 이 벤치마크에서 1~10% 수준이었는데, 이제 거의 AGI급이라 불릴 정도로 올라왔다는 게 믿기지 않음
- ARC-AGI 점수 상승은 흥미롭지만, 이걸 ‘일반 지능’의 도약으로 보는 건 과함
  나는 ARC-AGI의 G가 ‘graphical’이라고 농담함. 그동안 모델들이 공간 추론(spatial reasoning)에 약했는데, 이번에 그걸 해결한 듯함
  ARC-AGI 3에서는 시도와 오류 기반의 게임형 과제가 추가되길 기대함
- ARC Prize 리더보드를 보면, 현재 과제당 약 $13.62 비용이 듦
  현실적으로는 5~10년은 더 지나야 실행 비용이 합리적 수준이 될 듯함
  다만 모델이 벤치마크에 과적합(fitting) 된 건 아닌지 의문임
- 공정한 비교를 하려면 GPT-5.x Pro 같은 동급 모델과 비교해야 함
모델 출시 속도가 비정상적으로 빨라지는 느낌임
오늘만 해도 Gemini 3 Deep Think와 GPT 5.3 Codex Spark가 나왔고, 며칠 전엔 Opus 4.6, GLM5, MiniMax M2.5가 있었음
- 중국 설날 시즌이 영향을 준 듯함
  중국 연구소들이 이 시기에 모델을 내놓고, 미국 연구소들은 DeepSeek R1(2025년 1월 20일) 같은 임팩트를 피하려고 더 강력한 모델을 서둘러 공개하는 듯함
- 요즘은 모델 종류가 너무 많아 구분하기조차 힘듦
  Gemini 3 Deep Think는 완전히 새로운 모델이라기보다 Gemini 3 Pro 위에 추론 기능(subagent) 을 얹은 버전 같음
  OpenClaw 같은 외부 에이전트 프레임워크에도 연결 가능하니, ‘에이전트 워크플로’ 논쟁은 과장된 것 같음
- 최근 몇 주 동안은 정말 폭발적인 릴리즈 주기였음
- 한마디로 표현하자면 Fast takeoff임
Google이 완전히 앞서가고 있음
사람들은 뒤처졌다고 생각했지만, 그게 오히려 최고의 전략이었음
- 모델은 인상적이지만, 제품 품질은 형편없음
  Gemini web/CLI를 두 달 써봤는데 대화 중 맥락을 잃고, 공기질 개선을 물으면 맥락 없이 공기청정기 목록만 줌
  심지어 러시아 선전 사이트를 인용하거나 문장 중간에 중국어로 바뀌기도 함
  이런 품질에 월 20유로는 납득이 안 됨
- 평시의 Google은 느리고 관료적이지만, 전시 모드의 Google은 놀라운 속도로 일함
- OpenAI가 몇 시간 뒤에 또 뭔가 내놓을 테니 경쟁이 즐거움
  ARC-AGI-2가 LLM의 한계라던 사람들도 이제는 기준을 또 바꿀 것임
  인간의 노력 대부분이 “AI는 아직 AGI가 아니다”를 증명하려는 데 쓰일 듯함
- 그래도 실제 현실 활용도에서는 Google이 아직 뒤처져 있음
  Gemini 3 Pro는 여전히 문제점이 많음
나는 Gemini 3 Pro를 이용해 역사 문서 디지털화 프로젝트를 진행 중임
1885~1974년 독일어로 된 손글씨 회의록을 스캔해 1페이지씩 전사 후 번역함
약 2,370페이지를 처리했고, 정확도 95% , API 비용은 약 $50 수준임
수작업 검수가 필요하지만 시간 절약 효과는 엄청남
- 한 번의 패스로도 충분할 수 있으니, 검수 후 전체 효율을 다시 평가해볼 필요가 있음
내 직감상 모델에는 세 가지 스펙트럼이 있음
비사고형, 사고형, 그리고 best-of-N형(Deep Think, GPT Pro)
각각 계산 복잡도가 선형, 제곱, 세제곱 정도로 늘어남
사고형은 scratchpad 작성이 필요한 문제를 풀 수 있음
- 다음 단계는 에이전트 군집(agent swarm) 일 것 같음
  매니저 모델이 프롬프트를 받고 여러 하위 에이전트를 생성해 병렬로 시도하고, 결과를 평가·재배포하는 구조임
- best-of-N 모델은 긴 컨텍스트 활용이 핵심임
  Google은 2.5 버전부터 긴 문맥을 실질적으로 잘 다룸
  pass@N 개념도 흥미로운데, 보안 취약점 탐색이나 최적화 문제처럼 시간을 돈으로 바꾸는 탐색형 작업에 적합함
- 큰 비사고형 모델이 작은 사고형 모델과 같은 성능을 낼 수 있냐는 질문에는, Anthropic 모델들이 좋은 예시임
  이 이미지에서 Opus 4.6이 사고 없이도 높은 성능을 보임
모든 벤치마크의 평가 방법론 PDF는 여기에 있음
ARC-AGI-2 점수 84.6%는 semi-private 세트 기준이며,
private 세트에서 85%를 넘으면 “solved”로 간주되어 $700K 상금이 주어짐
ARC Prize 가이드 참고
- 문서 제목이 “Gemini 3.1 Pro”로 되어 있는 걸 보면, 곧 새 버전이 나올 듯함
- 하지만 private 세트에서 85%를 넘기긴 어려울 것 같음. 그건 데이터 유출을 의미할 수 있기 때문임
요즘 모델들이 너무 빠르게 발전해서, 내 일자리가 3~5년 내 사라질 수도 있겠다는 생각이 듦
이제는 LLM이 스스로를 개선하는 단계에 들어선 듯함
OpenRouter에 없다는 게 아쉬움
요즘 상위권 Deep Think 모델들은 자사 플랫폼에서만 쓸 수 있게 막혀 있음
- OpenRouter도 좋지만, litellm은 단순한 Python 라이브러리라 더 깔끔함
  litellm 문서 참고
- 하지만 이제 황금기(golden age) 는 끝난 듯한 느낌임
Gemini는 항상 지식은 풍부하지만 융통성은 부족한 모델처럼 느껴졌음
스크립트 밖의 요청에는 쉽게 무너짐
- 사실 이런 경험은 사용자 적응도의 문제일 수도 있음
  나는 Google 모델을 오래 써서 그런지 OpenAI 모델이 훨씬 못하다고 느꼈음
  반대로 OpenAI 사용자들도 같은 이유로 자기 모델이 최고라고 느낄 것임
- 어떤 면에서는 Gemini가 자기 방식대로 사고하는 모델 같음
  아직 테스트는 못 해봤지만, 명령 수행력이 개선됐을 수도 있음
모델 발전 속도가 너무 빨라서 놀라움
이제는 벽에 부딪힐 줄 알았는데, 새 모델들이 기존 벤치마크를 완전히 깨버림
- 하지만 기업들이 벤치마크 점수 최적화에 집중하다 보니, 실제 성능과의 상관관계는 점점 줄어드는 중임

답변달기