# Gemini 3 Deep Think 공개

> Clean Markdown view of GeekNews topic #26643. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26643](https://news.hada.io/topic?id=26643)
- GeekNews Markdown: [https://news.hada.io/topic/26643.md](https://news.hada.io/topic/26643.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-13T09:34:08+09:00
- Updated: 2026-02-13T09:34:08+09:00
- Original source: [blog.google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/)
- Points: 7
- Comments: 1

## Summary

**Gemini 3 Deep Think**는 과학·공학 문제 해결을 위한 Google의 전문 추론 모델로, 불완전한 데이터나 정답이 불명확한 연구 과제를 다루도록 설계되었습니다. 이번 업그레이드로 수학·프로그래밍·물리·화학 등 국제 벤치마크에서 **금메달 수준 성능**을 기록하며, 스케치로부터 **3D 프린트 가능한 모델을 생성**하는 등 실제 연구와 엔지니어링 응용까지 가능해졌습니다.

## Topic Body

- **과학·연구·공학 문제 해결**을 목표로 한 Google의 AI 모델 **Gemini 3 Deep Think**가 대규모 업그레이드됨  
- 새로운 버전은 **과학자 및 연구자와의 협력**을 통해 불완전한 데이터나 명확한 정답이 없는 복잡한 문제를 다루도록 설계  
- **수학·프로그래밍·물리·화학** 등 다양한 분야의 국제 올림피아드 및 벤치마크에서 **금메달 수준 성능**을 달성  
- **실제 연구와 엔지니어링 응용**을 지원하며, 스케치로부터 **3D 프린트 가능한 모델 생성** 등 실용적 기능을 제공  
- Google AI Ultra 구독자와 **Gemini API 조기 접근 프로그램**을 통해 이용 가능, 연구자·기업 대상 확장 예정  
  
---  
  
### Gemini 3 Deep Think 주요 개요  
- Gemini 3 Deep Think는 **과학·연구·공학 분야의 현대적 도전 과제 해결**을 위해 설계된 **전문 추론 모드**  
  - Google은 과학자 및 연구자와 긴밀히 협력해, 명확한 정답이 없거나 데이터가 불완전한 문제를 다루는 기능을 강화함  
  - **이론적 지식과 실용적 엔지니어링 활용성**을 결합해 실제 응용 중심의 모델로 발전  
- 이번 업그레이드는 **Gemini 앱**을 통해 Google AI Ultra 구독자에게 제공되며, **Gemini API**를 통해 연구자·엔지니어·기업이 조기 접근 신청 가능  
  
### 초기 사용자 사례  
- **Rutgers University의 수학자 Lisa Carbone**은 고에너지 물리학 관련 수학 논문 검토에 Deep Think를 활용, **인간 검토를 통과한 논리적 오류**를 발견  
- **Duke University의 Wang Lab**은 반도체 소재 탐색을 위한 복잡한 결정 성장 공정을 최적화, **100μm 이상 박막 성장 레시피**를 설계  
- **Google Platforms & Devices 부문의 Anupam Pathak**은 물리적 부품 설계 가속화를 위해 Deep Think를 테스트  
  
### 수학적·알고리듬적 정밀성 향상  
- Deep Think는 **국제 수학 올림피아드**와 **국제 대학생 프로그래밍 대회**에서 금메달 수준 성과를 기록  
- 최신 버전은 다음과 같은 **학문적 벤치마크 최고치**를 달성  
  - Humanity’s Last Exam: **48.4% (도구 미사용)**  
  - ARC-AGI-2: **84.6% (ARC Prize Foundation 검증)**  
  - Codeforces: **Elo 3455**  
  - International Math Olympiad 2025: **금메달 수준 성능**  
- Deep Think는 **수학적 탐구를 수행하는 전문 에이전트** 개발에도 활용됨  
  
### 복잡한 과학 영역 탐색  
- 수학·프로그래밍을 넘어 **화학·물리학 등 과학 전반**에서도 성능 향상  
  - 2025년 **국제 물리·화학 올림피아드 필기 부문**에서 금메달 수준 결과 달성  
  - **이론물리 벤치마크 CMT-Benchmark**에서 **50.5% 점수** 기록  
- 이러한 성능은 Deep Think의 **과학적 추론 능력 확장**을 입증  
  
### 실제 엔지니어링 가속화  
- Deep Think는 **복잡한 데이터 해석**과 **물리 시스템 모델링**을 지원, 연구자와 엔지니어의 실무 활용을 목표로 함  
- **Gemini API**를 통해 실제 연구 환경에서의 접근성을 확대 중  
- 예시로, 사용자는 **스케치를 입력해 3D 프린트 가능한 모델**을 생성할 수 있으며, Deep Think가 이를 분석·모델링·파일 생성까지 수행  
  
### 접근 및 이용  
- **Google AI Ultra 구독자**는 Gemini 앱에서 즉시 Deep Think를 사용할 수 있음  
- **연구자·엔지니어·기업**은 Gemini API를 통한 **조기 접근 프로그램**에 참여 신청 가능  
- Google은 Deep Think를 통해 새로운 과학적 발견과 응용 사례가 확산되기를 기대함

## Comments


### Comment 51092

- Author: neo
- Created: 2026-02-13T09:34:08+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46991240) 
- Arc-AGI-2 점수가 **84.6%** 라니 놀라움  
  [공식 블로그 글](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/)을 보면 Gemini 3 Deep Think의 세부 내용이 있음
  - 예전부터 Gemini 3는 믿기 힘들 정도로 **범용적(general)** 이라는 인상을 받았음  
    텍스트 설명만으로 Balatro(ante 8)를 이길 수 있었음. 인간에게는 어렵지 않지만, LLM이 특정 훈련 없이 해낸다는 게 놀라움  
    [Balatro Bench](https://balatrobench.com/)에서 테스트했는데, Deepseek은 이 게임을 전혀 못함
  - 불과 1년 전만 해도 이 벤치마크에서 1~10% 수준이었는데, 이제 거의 **AGI급**이라 불릴 정도로 올라왔다는 게 믿기지 않음  
  - ARC-AGI 점수 상승은 흥미롭지만, 이걸 **‘일반 지능’의 도약**으로 보는 건 과함  
    나는 ARC-AGI의 G가 ‘graphical’이라고 농담함. 그동안 모델들이 공간 추론(spatial reasoning)에 약했는데, 이번에 그걸 해결한 듯함  
    ARC-AGI 3에서는 **시도와 오류 기반의 게임형 과제**가 추가되길 기대함  
  - [ARC Prize 리더보드](https://arcprize.org/leaderboard)를 보면, 현재 과제당 약 $13.62 비용이 듦  
    현실적으로는 5~10년은 더 지나야 실행 비용이 합리적 수준이 될 듯함  
    다만 모델이 벤치마크에 **과적합(fitting)** 된 건 아닌지 의문임  
  - 공정한 비교를 하려면 GPT-5.x Pro 같은 동급 모델과 비교해야 함  

- 모델 출시 속도가 **비정상적으로 빨라지는 느낌**임  
  오늘만 해도 Gemini 3 Deep Think와 GPT 5.3 Codex Spark가 나왔고, 며칠 전엔 Opus 4.6, GLM5, MiniMax M2.5가 있었음
  - 중국 설날 시즌이 영향을 준 듯함  
    중국 연구소들이 이 시기에 모델을 내놓고, 미국 연구소들은 DeepSeek R1(2025년 1월 20일) 같은 임팩트를 피하려고 더 강력한 모델을 서둘러 공개하는 듯함  
  - 요즘은 모델 종류가 너무 많아 **구분하기조차 힘듦**  
    Gemini 3 Deep Think는 완전히 새로운 모델이라기보다 Gemini 3 Pro 위에 **추론 기능(subagent)** 을 얹은 버전 같음  
    OpenClaw 같은 외부 에이전트 프레임워크에도 연결 가능하니, ‘에이전트 워크플로’ 논쟁은 과장된 것 같음  
  - 최근 몇 주 동안은 정말 **폭발적인 릴리즈 주기**였음  
  - 한마디로 표현하자면 **Fast takeoff**임  

- Google이 완전히 **앞서가고 있음**  
  사람들은 뒤처졌다고 생각했지만, 그게 오히려 최고의 전략이었음
  - 모델은 인상적이지만, **제품 품질은 형편없음**  
    Gemini web/CLI를 두 달 써봤는데 대화 중 맥락을 잃고, 공기질 개선을 물으면 맥락 없이 공기청정기 목록만 줌  
    심지어 러시아 선전 사이트를 인용하거나 문장 중간에 중국어로 바뀌기도 함  
    이런 품질에 월 20유로는 납득이 안 됨  
  - 평시의 Google은 느리고 관료적이지만, **전시 모드의 Google**은 놀라운 속도로 일함  
  - OpenAI가 몇 시간 뒤에 또 뭔가 내놓을 테니 경쟁이 즐거움  
    ARC-AGI-2가 LLM의 한계라던 사람들도 이제는 기준을 또 바꿀 것임  
    인간의 노력 대부분이 “AI는 아직 AGI가 아니다”를 증명하려는 데 쓰일 듯함  
  - 그래도 실제 **현실 활용도**에서는 Google이 아직 뒤처져 있음  
    Gemini 3 Pro는 여전히 문제점이 많음  

- 나는 Gemini 3 Pro를 이용해 **역사 문서 디지털화 프로젝트**를 진행 중임  
  1885~1974년 독일어로 된 손글씨 회의록을 스캔해 1페이지씩 전사 후 번역함  
  약 2,370페이지를 처리했고, **정확도 95%** , API 비용은 약 $50 수준임  
  수작업 검수가 필요하지만 **시간 절약 효과**는 엄청남  
  - 한 번의 패스로도 충분할 수 있으니, 검수 후 전체 효율을 다시 평가해볼 필요가 있음  

- 내 직감상 모델에는 세 가지 스펙트럼이 있음  
  **비사고형**, **사고형**, 그리고 **best-of-N형(Deep Think, GPT Pro)**  
  각각 계산 복잡도가 선형, 제곱, 세제곱 정도로 늘어남  
  사고형은 **scratchpad 작성**이 필요한 문제를 풀 수 있음  
  - 다음 단계는 **에이전트 군집(agent swarm)** 일 것 같음  
    매니저 모델이 프롬프트를 받고 여러 하위 에이전트를 생성해 병렬로 시도하고, 결과를 평가·재배포하는 구조임  
  - best-of-N 모델은 **긴 컨텍스트 활용**이 핵심임  
    Google은 2.5 버전부터 긴 문맥을 실질적으로 잘 다룸  
    pass@N 개념도 흥미로운데, 보안 취약점 탐색이나 최적화 문제처럼 **시간을 돈으로 바꾸는 탐색형 작업**에 적합함  
  - 큰 비사고형 모델이 작은 사고형 모델과 같은 성능을 낼 수 있냐는 질문에는, Anthropic 모델들이 좋은 예시임  
    [이 이미지](https://imgur.com/a/EwW9H6q)에서 Opus 4.6이 사고 없이도 높은 성능을 보임  

- 모든 벤치마크의 **평가 방법론 PDF**는 [여기](https://storage.googleapis.com/deepmind-media/gemini/gemini_3_deep_think_model_evaluation.pdf)에 있음  
  ARC-AGI-2 점수 84.6%는 **semi-private 세트** 기준이며,  
  private 세트에서 85%를 넘으면 “solved”로 간주되어 **$700K 상금**이 주어짐  
  [ARC Prize 가이드](https://arcprize.org/guide#overview) 참고  
  - 문서 제목이 “Gemini 3.1 Pro”로 되어 있는 걸 보면, 곧 새 버전이 나올 듯함  
  - 하지만 private 세트에서 85%를 넘기긴 어려울 것 같음. 그건 **데이터 유출**을 의미할 수 있기 때문임  

- 요즘 모델들이 **너무 빠르게 발전**해서, 내 일자리가 3~5년 내 사라질 수도 있겠다는 생각이 듦  
  이제는 LLM이 스스로를 개선하는 단계에 들어선 듯함  

- OpenRouter에 없다는 게 아쉬움  
  요즘 상위권 **Deep Think 모델**들은 자사 플랫폼에서만 쓸 수 있게 막혀 있음  
  - OpenRouter도 좋지만, **litellm**은 단순한 Python 라이브러리라 더 깔끔함  
    [litellm 문서](https://docs.litellm.ai/docs/) 참고  
  - 하지만 이제 **황금기(golden age)** 는 끝난 듯한 느낌임  

- Gemini는 항상 **지식은 풍부하지만 융통성은 부족한 모델**처럼 느껴졌음  
  스크립트 밖의 요청에는 쉽게 무너짐  
  - 사실 이런 경험은 **사용자 적응도**의 문제일 수도 있음  
    나는 Google 모델을 오래 써서 그런지 OpenAI 모델이 훨씬 못하다고 느꼈음  
    반대로 OpenAI 사용자들도 같은 이유로 자기 모델이 최고라고 느낄 것임  
  - 어떤 면에서는 Gemini가 **자기 방식대로 사고하는 모델** 같음  
    아직 테스트는 못 해봤지만, 명령 수행력이 개선됐을 수도 있음  

- 모델 발전 속도가 너무 빨라서 놀라움  
  이제는 벽에 부딪힐 줄 알았는데, 새 모델들이 **기존 벤치마크를 완전히 깨버림**  
  - 하지만 기업들이 **벤치마크 점수 최적화**에 집중하다 보니, 실제 성능과의 상관관계는 점점 줄어드는 중임