Gemini 3 Deep Think 공개
(blog.google)- 과학·연구·공학 문제 해결을 목표로 한 Google의 AI 모델 Gemini 3 Deep Think가 대규모 업그레이드됨
- 새로운 버전은 과학자 및 연구자와의 협력을 통해 불완전한 데이터나 명확한 정답이 없는 복잡한 문제를 다루도록 설계
- 수학·프로그래밍·물리·화학 등 다양한 분야의 국제 올림피아드 및 벤치마크에서 금메달 수준 성능을 달성
- 실제 연구와 엔지니어링 응용을 지원하며, 스케치로부터 3D 프린트 가능한 모델 생성 등 실용적 기능을 제공
- Google AI Ultra 구독자와 Gemini API 조기 접근 프로그램을 통해 이용 가능, 연구자·기업 대상 확장 예정
Gemini 3 Deep Think 주요 개요
- Gemini 3 Deep Think는 과학·연구·공학 분야의 현대적 도전 과제 해결을 위해 설계된 전문 추론 모드
- Google은 과학자 및 연구자와 긴밀히 협력해, 명확한 정답이 없거나 데이터가 불완전한 문제를 다루는 기능을 강화함
- 이론적 지식과 실용적 엔지니어링 활용성을 결합해 실제 응용 중심의 모델로 발전
- 이번 업그레이드는 Gemini 앱을 통해 Google AI Ultra 구독자에게 제공되며, Gemini API를 통해 연구자·엔지니어·기업이 조기 접근 신청 가능
초기 사용자 사례
- Rutgers University의 수학자 Lisa Carbone은 고에너지 물리학 관련 수학 논문 검토에 Deep Think를 활용, 인간 검토를 통과한 논리적 오류를 발견
- Duke University의 Wang Lab은 반도체 소재 탐색을 위한 복잡한 결정 성장 공정을 최적화, 100μm 이상 박막 성장 레시피를 설계
- Google Platforms & Devices 부문의 Anupam Pathak은 물리적 부품 설계 가속화를 위해 Deep Think를 테스트
수학적·알고리듬적 정밀성 향상
- Deep Think는 국제 수학 올림피아드와 국제 대학생 프로그래밍 대회에서 금메달 수준 성과를 기록
- 최신 버전은 다음과 같은 학문적 벤치마크 최고치를 달성
- Humanity’s Last Exam: 48.4% (도구 미사용)
- ARC-AGI-2: 84.6% (ARC Prize Foundation 검증)
- Codeforces: Elo 3455
- International Math Olympiad 2025: 금메달 수준 성능
- Deep Think는 수학적 탐구를 수행하는 전문 에이전트 개발에도 활용됨
복잡한 과학 영역 탐색
- 수학·프로그래밍을 넘어 화학·물리학 등 과학 전반에서도 성능 향상
- 2025년 국제 물리·화학 올림피아드 필기 부문에서 금메달 수준 결과 달성
- 이론물리 벤치마크 CMT-Benchmark에서 50.5% 점수 기록
- 이러한 성능은 Deep Think의 과학적 추론 능력 확장을 입증
실제 엔지니어링 가속화
- Deep Think는 복잡한 데이터 해석과 물리 시스템 모델링을 지원, 연구자와 엔지니어의 실무 활용을 목표로 함
- Gemini API를 통해 실제 연구 환경에서의 접근성을 확대 중
- 예시로, 사용자는 스케치를 입력해 3D 프린트 가능한 모델을 생성할 수 있으며, Deep Think가 이를 분석·모델링·파일 생성까지 수행
접근 및 이용
- Google AI Ultra 구독자는 Gemini 앱에서 즉시 Deep Think를 사용할 수 있음
- 연구자·엔지니어·기업은 Gemini API를 통한 조기 접근 프로그램에 참여 신청 가능
- Google은 Deep Think를 통해 새로운 과학적 발견과 응용 사례가 확산되기를 기대함
Hacker News 의견들
-
Arc-AGI-2 점수가 84.6% 라니 놀라움
공식 블로그 글을 보면 Gemini 3 Deep Think의 세부 내용이 있음- 예전부터 Gemini 3는 믿기 힘들 정도로 범용적(general) 이라는 인상을 받았음
텍스트 설명만으로 Balatro(ante 8)를 이길 수 있었음. 인간에게는 어렵지 않지만, LLM이 특정 훈련 없이 해낸다는 게 놀라움
Balatro Bench에서 테스트했는데, Deepseek은 이 게임을 전혀 못함 - 불과 1년 전만 해도 이 벤치마크에서 1~10% 수준이었는데, 이제 거의 AGI급이라 불릴 정도로 올라왔다는 게 믿기지 않음
- ARC-AGI 점수 상승은 흥미롭지만, 이걸 ‘일반 지능’의 도약으로 보는 건 과함
나는 ARC-AGI의 G가 ‘graphical’이라고 농담함. 그동안 모델들이 공간 추론(spatial reasoning)에 약했는데, 이번에 그걸 해결한 듯함
ARC-AGI 3에서는 시도와 오류 기반의 게임형 과제가 추가되길 기대함 -
ARC Prize 리더보드를 보면, 현재 과제당 약 $13.62 비용이 듦
현실적으로는 5~10년은 더 지나야 실행 비용이 합리적 수준이 될 듯함
다만 모델이 벤치마크에 과적합(fitting) 된 건 아닌지 의문임 - 공정한 비교를 하려면 GPT-5.x Pro 같은 동급 모델과 비교해야 함
- 예전부터 Gemini 3는 믿기 힘들 정도로 범용적(general) 이라는 인상을 받았음
-
모델 출시 속도가 비정상적으로 빨라지는 느낌임
오늘만 해도 Gemini 3 Deep Think와 GPT 5.3 Codex Spark가 나왔고, 며칠 전엔 Opus 4.6, GLM5, MiniMax M2.5가 있었음- 중국 설날 시즌이 영향을 준 듯함
중국 연구소들이 이 시기에 모델을 내놓고, 미국 연구소들은 DeepSeek R1(2025년 1월 20일) 같은 임팩트를 피하려고 더 강력한 모델을 서둘러 공개하는 듯함 - 요즘은 모델 종류가 너무 많아 구분하기조차 힘듦
Gemini 3 Deep Think는 완전히 새로운 모델이라기보다 Gemini 3 Pro 위에 추론 기능(subagent) 을 얹은 버전 같음
OpenClaw 같은 외부 에이전트 프레임워크에도 연결 가능하니, ‘에이전트 워크플로’ 논쟁은 과장된 것 같음 - 최근 몇 주 동안은 정말 폭발적인 릴리즈 주기였음
- 한마디로 표현하자면 Fast takeoff임
- 중국 설날 시즌이 영향을 준 듯함
-
Google이 완전히 앞서가고 있음
사람들은 뒤처졌다고 생각했지만, 그게 오히려 최고의 전략이었음- 모델은 인상적이지만, 제품 품질은 형편없음
Gemini web/CLI를 두 달 써봤는데 대화 중 맥락을 잃고, 공기질 개선을 물으면 맥락 없이 공기청정기 목록만 줌
심지어 러시아 선전 사이트를 인용하거나 문장 중간에 중국어로 바뀌기도 함
이런 품질에 월 20유로는 납득이 안 됨 - 평시의 Google은 느리고 관료적이지만, 전시 모드의 Google은 놀라운 속도로 일함
- OpenAI가 몇 시간 뒤에 또 뭔가 내놓을 테니 경쟁이 즐거움
ARC-AGI-2가 LLM의 한계라던 사람들도 이제는 기준을 또 바꿀 것임
인간의 노력 대부분이 “AI는 아직 AGI가 아니다”를 증명하려는 데 쓰일 듯함 - 그래도 실제 현실 활용도에서는 Google이 아직 뒤처져 있음
Gemini 3 Pro는 여전히 문제점이 많음
- 모델은 인상적이지만, 제품 품질은 형편없음
-
나는 Gemini 3 Pro를 이용해 역사 문서 디지털화 프로젝트를 진행 중임
1885~1974년 독일어로 된 손글씨 회의록을 스캔해 1페이지씩 전사 후 번역함
약 2,370페이지를 처리했고, 정확도 95% , API 비용은 약 $50 수준임
수작업 검수가 필요하지만 시간 절약 효과는 엄청남- 한 번의 패스로도 충분할 수 있으니, 검수 후 전체 효율을 다시 평가해볼 필요가 있음
-
내 직감상 모델에는 세 가지 스펙트럼이 있음
비사고형, 사고형, 그리고 best-of-N형(Deep Think, GPT Pro)
각각 계산 복잡도가 선형, 제곱, 세제곱 정도로 늘어남
사고형은 scratchpad 작성이 필요한 문제를 풀 수 있음- 다음 단계는 에이전트 군집(agent swarm) 일 것 같음
매니저 모델이 프롬프트를 받고 여러 하위 에이전트를 생성해 병렬로 시도하고, 결과를 평가·재배포하는 구조임 - best-of-N 모델은 긴 컨텍스트 활용이 핵심임
Google은 2.5 버전부터 긴 문맥을 실질적으로 잘 다룸
pass@N 개념도 흥미로운데, 보안 취약점 탐색이나 최적화 문제처럼 시간을 돈으로 바꾸는 탐색형 작업에 적합함 - 큰 비사고형 모델이 작은 사고형 모델과 같은 성능을 낼 수 있냐는 질문에는, Anthropic 모델들이 좋은 예시임
이 이미지에서 Opus 4.6이 사고 없이도 높은 성능을 보임
- 다음 단계는 에이전트 군집(agent swarm) 일 것 같음
-
모든 벤치마크의 평가 방법론 PDF는 여기에 있음
ARC-AGI-2 점수 84.6%는 semi-private 세트 기준이며,
private 세트에서 85%를 넘으면 “solved”로 간주되어 $700K 상금이 주어짐
ARC Prize 가이드 참고- 문서 제목이 “Gemini 3.1 Pro”로 되어 있는 걸 보면, 곧 새 버전이 나올 듯함
- 하지만 private 세트에서 85%를 넘기긴 어려울 것 같음. 그건 데이터 유출을 의미할 수 있기 때문임
-
요즘 모델들이 너무 빠르게 발전해서, 내 일자리가 3~5년 내 사라질 수도 있겠다는 생각이 듦
이제는 LLM이 스스로를 개선하는 단계에 들어선 듯함 -
OpenRouter에 없다는 게 아쉬움
요즘 상위권 Deep Think 모델들은 자사 플랫폼에서만 쓸 수 있게 막혀 있음- OpenRouter도 좋지만, litellm은 단순한 Python 라이브러리라 더 깔끔함
litellm 문서 참고 - 하지만 이제 황금기(golden age) 는 끝난 듯한 느낌임
- OpenRouter도 좋지만, litellm은 단순한 Python 라이브러리라 더 깔끔함
-
Gemini는 항상 지식은 풍부하지만 융통성은 부족한 모델처럼 느껴졌음
스크립트 밖의 요청에는 쉽게 무너짐- 사실 이런 경험은 사용자 적응도의 문제일 수도 있음
나는 Google 모델을 오래 써서 그런지 OpenAI 모델이 훨씬 못하다고 느꼈음
반대로 OpenAI 사용자들도 같은 이유로 자기 모델이 최고라고 느낄 것임 - 어떤 면에서는 Gemini가 자기 방식대로 사고하는 모델 같음
아직 테스트는 못 해봤지만, 명령 수행력이 개선됐을 수도 있음
- 사실 이런 경험은 사용자 적응도의 문제일 수도 있음
-
모델 발전 속도가 너무 빨라서 놀라움
이제는 벽에 부딪힐 줄 알았는데, 새 모델들이 기존 벤치마크를 완전히 깨버림- 하지만 기업들이 벤치마크 점수 최적화에 집중하다 보니, 실제 성능과의 상관관계는 점점 줄어드는 중임