6P by GN⁺ 6시간전 | ★ favorite | 댓글 1개
  • 과학·연구·공학 문제 해결을 목표로 한 Google의 AI 모델 Gemini 3 Deep Think가 대규모 업그레이드됨
  • 새로운 버전은 과학자 및 연구자와의 협력을 통해 불완전한 데이터나 명확한 정답이 없는 복잡한 문제를 다루도록 설계
  • 수학·프로그래밍·물리·화학 등 다양한 분야의 국제 올림피아드 및 벤치마크에서 금메달 수준 성능을 달성
  • 실제 연구와 엔지니어링 응용을 지원하며, 스케치로부터 3D 프린트 가능한 모델 생성 등 실용적 기능을 제공
  • Google AI Ultra 구독자와 Gemini API 조기 접근 프로그램을 통해 이용 가능, 연구자·기업 대상 확장 예정

Gemini 3 Deep Think 주요 개요

  • Gemini 3 Deep Think는 과학·연구·공학 분야의 현대적 도전 과제 해결을 위해 설계된 전문 추론 모드
    • Google은 과학자 및 연구자와 긴밀히 협력해, 명확한 정답이 없거나 데이터가 불완전한 문제를 다루는 기능을 강화함
    • 이론적 지식과 실용적 엔지니어링 활용성을 결합해 실제 응용 중심의 모델로 발전
  • 이번 업그레이드는 Gemini 앱을 통해 Google AI Ultra 구독자에게 제공되며, Gemini API를 통해 연구자·엔지니어·기업이 조기 접근 신청 가능

초기 사용자 사례

  • Rutgers University의 수학자 Lisa Carbone은 고에너지 물리학 관련 수학 논문 검토에 Deep Think를 활용, 인간 검토를 통과한 논리적 오류를 발견
  • Duke University의 Wang Lab은 반도체 소재 탐색을 위한 복잡한 결정 성장 공정을 최적화, 100μm 이상 박막 성장 레시피를 설계
  • Google Platforms & Devices 부문의 Anupam Pathak은 물리적 부품 설계 가속화를 위해 Deep Think를 테스트

수학적·알고리듬적 정밀성 향상

  • Deep Think는 국제 수학 올림피아드국제 대학생 프로그래밍 대회에서 금메달 수준 성과를 기록
  • 최신 버전은 다음과 같은 학문적 벤치마크 최고치를 달성
    • Humanity’s Last Exam: 48.4% (도구 미사용)
    • ARC-AGI-2: 84.6% (ARC Prize Foundation 검증)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: 금메달 수준 성능
  • Deep Think는 수학적 탐구를 수행하는 전문 에이전트 개발에도 활용됨

복잡한 과학 영역 탐색

  • 수학·프로그래밍을 넘어 화학·물리학 등 과학 전반에서도 성능 향상
    • 2025년 국제 물리·화학 올림피아드 필기 부문에서 금메달 수준 결과 달성
    • 이론물리 벤치마크 CMT-Benchmark에서 50.5% 점수 기록
  • 이러한 성능은 Deep Think의 과학적 추론 능력 확장을 입증

실제 엔지니어링 가속화

  • Deep Think는 복잡한 데이터 해석물리 시스템 모델링을 지원, 연구자와 엔지니어의 실무 활용을 목표로 함
  • Gemini API를 통해 실제 연구 환경에서의 접근성을 확대 중
  • 예시로, 사용자는 스케치를 입력해 3D 프린트 가능한 모델을 생성할 수 있으며, Deep Think가 이를 분석·모델링·파일 생성까지 수행

접근 및 이용

  • Google AI Ultra 구독자는 Gemini 앱에서 즉시 Deep Think를 사용할 수 있음
  • 연구자·엔지니어·기업은 Gemini API를 통한 조기 접근 프로그램에 참여 신청 가능
  • Google은 Deep Think를 통해 새로운 과학적 발견과 응용 사례가 확산되기를 기대함
Hacker News 의견들
  • Arc-AGI-2 점수가 84.6% 라니 놀라움
    공식 블로그 글을 보면 Gemini 3 Deep Think의 세부 내용이 있음

    • 예전부터 Gemini 3는 믿기 힘들 정도로 범용적(general) 이라는 인상을 받았음
      텍스트 설명만으로 Balatro(ante 8)를 이길 수 있었음. 인간에게는 어렵지 않지만, LLM이 특정 훈련 없이 해낸다는 게 놀라움
      Balatro Bench에서 테스트했는데, Deepseek은 이 게임을 전혀 못함
    • 불과 1년 전만 해도 이 벤치마크에서 1~10% 수준이었는데, 이제 거의 AGI급이라 불릴 정도로 올라왔다는 게 믿기지 않음
    • ARC-AGI 점수 상승은 흥미롭지만, 이걸 ‘일반 지능’의 도약으로 보는 건 과함
      나는 ARC-AGI의 G가 ‘graphical’이라고 농담함. 그동안 모델들이 공간 추론(spatial reasoning)에 약했는데, 이번에 그걸 해결한 듯함
      ARC-AGI 3에서는 시도와 오류 기반의 게임형 과제가 추가되길 기대함
    • ARC Prize 리더보드를 보면, 현재 과제당 약 $13.62 비용이 듦
      현실적으로는 5~10년은 더 지나야 실행 비용이 합리적 수준이 될 듯함
      다만 모델이 벤치마크에 과적합(fitting) 된 건 아닌지 의문임
    • 공정한 비교를 하려면 GPT-5.x Pro 같은 동급 모델과 비교해야 함
  • 모델 출시 속도가 비정상적으로 빨라지는 느낌
    오늘만 해도 Gemini 3 Deep Think와 GPT 5.3 Codex Spark가 나왔고, 며칠 전엔 Opus 4.6, GLM5, MiniMax M2.5가 있었음

    • 중국 설날 시즌이 영향을 준 듯함
      중국 연구소들이 이 시기에 모델을 내놓고, 미국 연구소들은 DeepSeek R1(2025년 1월 20일) 같은 임팩트를 피하려고 더 강력한 모델을 서둘러 공개하는 듯함
    • 요즘은 모델 종류가 너무 많아 구분하기조차 힘듦
      Gemini 3 Deep Think는 완전히 새로운 모델이라기보다 Gemini 3 Pro 위에 추론 기능(subagent) 을 얹은 버전 같음
      OpenClaw 같은 외부 에이전트 프레임워크에도 연결 가능하니, ‘에이전트 워크플로’ 논쟁은 과장된 것 같음
    • 최근 몇 주 동안은 정말 폭발적인 릴리즈 주기였음
    • 한마디로 표현하자면 Fast takeoff
  • Google이 완전히 앞서가고 있음
    사람들은 뒤처졌다고 생각했지만, 그게 오히려 최고의 전략이었음

    • 모델은 인상적이지만, 제품 품질은 형편없음
      Gemini web/CLI를 두 달 써봤는데 대화 중 맥락을 잃고, 공기질 개선을 물으면 맥락 없이 공기청정기 목록만 줌
      심지어 러시아 선전 사이트를 인용하거나 문장 중간에 중국어로 바뀌기도 함
      이런 품질에 월 20유로는 납득이 안 됨
    • 평시의 Google은 느리고 관료적이지만, 전시 모드의 Google은 놀라운 속도로 일함
    • OpenAI가 몇 시간 뒤에 또 뭔가 내놓을 테니 경쟁이 즐거움
      ARC-AGI-2가 LLM의 한계라던 사람들도 이제는 기준을 또 바꿀 것임
      인간의 노력 대부분이 “AI는 아직 AGI가 아니다”를 증명하려는 데 쓰일 듯함
    • 그래도 실제 현실 활용도에서는 Google이 아직 뒤처져 있음
      Gemini 3 Pro는 여전히 문제점이 많음
  • 나는 Gemini 3 Pro를 이용해 역사 문서 디지털화 프로젝트를 진행 중임
    1885~1974년 독일어로 된 손글씨 회의록을 스캔해 1페이지씩 전사 후 번역함
    약 2,370페이지를 처리했고, 정확도 95% , API 비용은 약 $50 수준임
    수작업 검수가 필요하지만 시간 절약 효과는 엄청남

    • 한 번의 패스로도 충분할 수 있으니, 검수 후 전체 효율을 다시 평가해볼 필요가 있음
  • 내 직감상 모델에는 세 가지 스펙트럼이 있음
    비사고형, 사고형, 그리고 best-of-N형(Deep Think, GPT Pro)
    각각 계산 복잡도가 선형, 제곱, 세제곱 정도로 늘어남
    사고형은 scratchpad 작성이 필요한 문제를 풀 수 있음

    • 다음 단계는 에이전트 군집(agent swarm) 일 것 같음
      매니저 모델이 프롬프트를 받고 여러 하위 에이전트를 생성해 병렬로 시도하고, 결과를 평가·재배포하는 구조임
    • best-of-N 모델은 긴 컨텍스트 활용이 핵심임
      Google은 2.5 버전부터 긴 문맥을 실질적으로 잘 다룸
      pass@N 개념도 흥미로운데, 보안 취약점 탐색이나 최적화 문제처럼 시간을 돈으로 바꾸는 탐색형 작업에 적합함
    • 큰 비사고형 모델이 작은 사고형 모델과 같은 성능을 낼 수 있냐는 질문에는, Anthropic 모델들이 좋은 예시임
      이 이미지에서 Opus 4.6이 사고 없이도 높은 성능을 보임
  • 모든 벤치마크의 평가 방법론 PDF여기에 있음
    ARC-AGI-2 점수 84.6%는 semi-private 세트 기준이며,
    private 세트에서 85%를 넘으면 “solved”로 간주되어 $700K 상금이 주어짐
    ARC Prize 가이드 참고

    • 문서 제목이 “Gemini 3.1 Pro”로 되어 있는 걸 보면, 곧 새 버전이 나올 듯함
    • 하지만 private 세트에서 85%를 넘기긴 어려울 것 같음. 그건 데이터 유출을 의미할 수 있기 때문임
  • 요즘 모델들이 너무 빠르게 발전해서, 내 일자리가 3~5년 내 사라질 수도 있겠다는 생각이 듦
    이제는 LLM이 스스로를 개선하는 단계에 들어선 듯함

  • OpenRouter에 없다는 게 아쉬움
    요즘 상위권 Deep Think 모델들은 자사 플랫폼에서만 쓸 수 있게 막혀 있음

    • OpenRouter도 좋지만, litellm은 단순한 Python 라이브러리라 더 깔끔함
      litellm 문서 참고
    • 하지만 이제 황금기(golden age) 는 끝난 듯한 느낌임
  • Gemini는 항상 지식은 풍부하지만 융통성은 부족한 모델처럼 느껴졌음
    스크립트 밖의 요청에는 쉽게 무너짐

    • 사실 이런 경험은 사용자 적응도의 문제일 수도 있음
      나는 Google 모델을 오래 써서 그런지 OpenAI 모델이 훨씬 못하다고 느꼈음
      반대로 OpenAI 사용자들도 같은 이유로 자기 모델이 최고라고 느낄 것임
    • 어떤 면에서는 Gemini가 자기 방식대로 사고하는 모델 같음
      아직 테스트는 못 해봤지만, 명령 수행력이 개선됐을 수도 있음
  • 모델 발전 속도가 너무 빨라서 놀라움
    이제는 벽에 부딪힐 줄 알았는데, 새 모델들이 기존 벤치마크를 완전히 깨버림

    • 하지만 기업들이 벤치마크 점수 최적화에 집중하다 보니, 실제 성능과의 상관관계는 점점 줄어드는 중임