Gemini 2.5 Deep Think, Gemini 앱에서 이용 가능

(blog.google)

2P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Gemini 2.5 Deep Think 기능이 Google AI Ultra 구독자 전용으로 Gemini 앱에 도입
새로운 병렬 사고(parallel thinking) 기법과 연구 성과가 반영되어, IMO에서 금메달을 획득한 모델을 바탕으로 더욱 실사용에 적합하게 개선
창의적 문제 해결, 수학 및 과학적 추론, 알고리듬 개발 등 다양한 복잡한 과제에서 탁월한 성능을 보여줌
성능 향상을 위해 추론 시간(Thinking Time) 을 늘려 다양한 아이디어와 해법을 동시에 탐색하고, 이를 통해 더 깊은 사고와 창의적 결과물을 생성함
안전성 및 책임 있는 AI 개발을 위해 강화된 평가와 조치가 이루어지며, 향후 API 및 엔터프라이즈 활용 확대 계획이 안내됨

Gemini 2.5 Deep Think 출시

Gemini 2.5 Deep Think 기능이 Google AI Ultra 구독자에게 Gemini 앱을 통해 제공
신뢰받는 테스터 및 연구진의 피드백과 최신 연구 결과가 반영된 버전
최근 국제 수학 올림피아드(IMO)에서 금메달 수준의 모델을 기반으로, 실제 사용자 경험에 맞게 속도와 실용성이 개선
이번 공개로 창의적 문제 해결 도구로서의 가능성을 확대하며, 수학자 및 연구자 대상 피드백을 바탕으로 기능을 고도화할 계획

Deep Think의 동작 원리

병렬적 사고 기법을 도입해, Gemini가 복잡한 문제에 다양한 아이디어와 해법을 동시에 탐색하고 비교/조합함
모델의 추론 시간(Thinking Time) 을 늘려, 여러 가설을 심도 있게 탐구하여 더 창의적인 해결책을 찾을 수 있음
강화학습을 통해 이러한 확장된 추론 경로를 적극 활용하도록 학습, 보다 직관적이고 깊은 문제 해결 능력을 강화함

Deep Think의 주요 성능 및 활용 분야

점진적 개발 및 디자인: 복잡한 시스템이나 디자인을 단계별로 발전시키는 작업에서 높은 성능을 보여줌
과학 및 수학적 발견: 수학적 추론이나 과학 논문 해석 등 고난도 창의적 탐구에 강점이 있음
알고리듬 및 코드 개발: 문제의 구조화, 시간 복잡도 및 트레이드오프까지 고려해야 하는 어려운 코딩 문제에서 최첨단 성능을 달성함
최신 벤치마크(예: LiveCodeBench V6, Humanity’s Last Exam)에서 기존 모델 대비 최고 수준의 코드/지식/추론 성능을 입증함

Gemini의 책임감 있는 개발 및 안전성

Gemini 2.5 Deep Think는 안전성 평가에서 기존 Pro 모델보다 더 개선된 콘텐츠 안전 및 객관적 톤을 보임
복잡성이 증가함에 따라 위험성도 함께 평가하며, Frontier Safety 평가와 필요한 대응책을 강화함
상세 안전성 결과는 모델 카드에서 확인 가능함

Deep Think 사용 방법

Google AI Ultra 구독자는 Gemini 앱에서 모델 드롭다운에서 2.5 Pro 선택 후, 프롬프트 바에서 Deep Think 토글을 통해 하루 정해진 횟수로 이용 가능함
코드 실행, Google 검색 등 도구와 자동 연동되며, 훨씬 긴 답변 생성이 가능함
곧 Gemini API 및 엔터프라이즈를 위한 추가 테스트도 진행될 예정

▲

GN⁺ 3달전 [-]

Hacker News 의견

새로 나온 Deep Think agent를 테스트해봤음, 그런데 다섯 번 프롬프트를 입력하자마자 일일 사용 한도에 도달함. 한 달에 $250을 내고 이 정도 서비스라면 좀 실망스러움. o3-pro나 Grok 4 Heavy에 비해 가격경쟁력이 현저히 떨어지는 수준임. AI 커뮤니티에서 이 기능이 그나마 Google Ultra 구독 가격을 정당화할 수 있는 유일한 부분으로 관심을 모았음. 그런데 Google은 AI Studio에서는 최고 모델을 무료로 제공하면서, 실제로 돈 내는 Ultra 구독자한테는 이런 식으로 과금 정책을 쓰니 도무지 이해가 안 됨. 성능 측면에선, 비즈니스 관련 고난도 문제 상황을 입력하니 명료하고 설득력 있는 솔루션을 제공해줬고, 내부 회의 결과와 일치하는 대답임. 그런데 결과적으로 o3도 훨씬 싼 가격에 비슷한 결론을 내줬음. 다만 o3의 리포트가 좀 덜 정돈된 느낌이었음. 좀 더 써봐야 알 것 같음
- 완전하게 상용화 준비/최적화가 된 것은 아니지만, 8월 2일에 시행되는 유럽연합 AI 법안(EU AI Act) 전에 출시하고 2년 동안 기준을 맞추려는 전략일 수도 있음. 그래서 일부 소수 사용자에게 강한 사용량 제한을 걸고 우선 공개했을 가능성이 크다고 생각함
- 대용량 context가 필요한 작업에서의 Deep Think 성능이 궁금함. Parallel thinking(병렬적 사고)이 특정 문제 유형에 굉장히 유용할 수 있으니, 전통적 chain of thought가 다 못 다루는 더 많은 문맥을 처리할 수 있는지 실험해보고 싶음
- 수년 전에는 코딩 실력의 척도로 인터넷 검색 없이 또는 StackOverflow 같은 곳에 잘 정리된 질문을 올린 뒤 스스로 답을 다는 습관을 가졌음. 때로는 “3일간 헤맸는데 이 답변이 내 인생을 살렸다” 같은 댓글이 달릴 때 참 뿌듯했음. 이번 주 내내 어려운 문제를 풀고 있는데, 그렇지만 Copilot류 AI 모델들은 거의 도움이 안 됨. 코딩에서 실력은 누구도(심지어 AI도) 도와주지 않을 때 스스로 일반화, 종합, 창의적 발상을 동원해야 비로소 느끼는 것임. (그래서 AI 코딩 agent에게 완전히 대체되려면 아직은 시간이 좀 더 필요하다고 스스로 위안하고 있음)
- Grok 4와 4 Heavy 모델 모두 써봤는데 내 경험상 정말 별로임. 쿼리를 얼마나 많이 넣을 수 있든, 응답이 형편없으면 아무 소용 없음. 올해 LLM에 돈 쓴 것 중 최악임. 다양한 AI에 꽤 투자했지만 Grok에 쓴 돈 가장 아까움
- Google이 최고급 모델을 AI Studio에서 무료로 제공하면서 실제 고객에게는 쥐꼬리만큼만 혜택을 주는 걸 보면 깜짝 놀라울 때가 많음. 하지만 이런 모습이 전혀 놀랍지는 않음. 아마도 Google은 AI Ultra 고객에서 큰 이윤을 내는 건 아닐 거고, AI Studio의 프리 티어에서 얻는 대량 사용자 데이터가 더 중요하다고 생각함. 최고 모델을 무료로 열어두면 가장 요구 수준이 높은 유저들의 시장점유율을 쉽게 얻음. 그리고 훗날 이들을 대상으로 과금정책을 펼 수 있어, 현재 구글이 보유한 유휴 서버를 잘 활용하는 좋은 전략이기도 함
여러분, Gemini Deep Think에 “자전거 탄 펠리컨의 SVG 이미지를 그려줘”라고 프롬프트를 넣었더니 나온 결과임 https://www.svgviewer.dev/s/5R5iTexQ Simon Willison보다 먼저 해봄!
- HN에서 밈으로 뜨는 건 무조건 훈련 데이터에 들어갈 운명임. AI 회사마다 인턴 한 명씩이 멋진 펠리컨 SVG 그리느라 땀 뻘뻘 흘리는 모습을 상상하면 재미있음
- 방금 결과를 보니까 확실히 펠리컨 같아서 놀람, 꽤 괜찮음
- 이런 밈 벤치마크(예: 딸기 그림 등)는 웃기긴 한데 요즘 모델 훈련에 너무 많이 들어가 있으니 쉽게 속일 수 있는 측정방식임
- 진짜 미래에 산다는 느낌이 드는 가치임
- 솔직히 처음으로 “이게 프롬프트 없이 SVG만 봐도 자전거 탄 펠리컨 맞다”라고 맞힐 수 있을 것 같은 결과물임. 여기에 보컬 타워 사례도 인상적임. 시각/공간 인지 면에서 꽤 성과라는 생각임
직접 돌려보고 싶으면 simonw의 LLM cli와 llm-consortium 플러그인을 써볼 수 있음장점 1: 여러 모델을 자유롭게 조합해 쓸 수 있음. 연구실 상관없이 원하는 조합으로 세팅 가능장점 2: llm-model-gateway 플러그인 활용해서 한 번에 로컬 API로 내 앱이나 코딩 협업툴에 연결 가능 https://x.com/karpathy/status/1870692546969735361
설치 및 예시 명령어, 그리고 consortium of consortium도 만들 수 있다는 예시까지 직접 적어줌.
https://GitHub.com/irthomasthomas/llm-consortium
- 왜 이걸 Gemini Deep Think의 로컬 버전이라고 하나 궁금함. 멀티에이전트 구조는 여러 방식으로 구현할 수 있지 않나 싶음. 그리고 다수 모델의 covariance(공분산) 때문에 오류가 동기화될 수 있으니, 다양한 구조 조합으로 오류 상관도는 낮추면서도 개별 정확도는 유지하는 게 성능최적화에 중요하다고 생각함. 해법이 다수 존재하는 벤치마크에서 이걸 실험해보고 싶음
- 유럽연합(EU)이 consortium of consortiums(컨소시엄의 컨소시엄)인지 궁금함
- 이런 기능을 지원하는 OpenWebUI 플러그인이 있는지 알고 있으면 알려달라고 요청함
- llm serve 명령어가 안 보인다고 언급함
몇 주 전에 IMO(국제수학올림피아드)에서 금메달을 딴 모델은 아니지만 거의 근접한 유사종임 https://x.com/OfficialLoganK/status/1951262261512659430아직 API로는 제공되지 않고 있음
이번 접근법은 Grok 4 Heavy와 유사함: 복수의 ‘추론’ 에이전트를 병렬로 돌린 뒤 답변을 서로 비교해 가장 좋은 답을 선택해서 돌아오는 방식, 대략 30분 소요됨. 결과는 훌륭하지만, 사실상 Grok 4(단일 에이전트, 더 빠른 모델)보다는 Grok 4 Heavy 기준으로 벤치마크 비교해야 공정함
- 동일한 추론 컴퓨팅 파워를 여러 에이전트로 분산하면 더 좋은 성과 나옴. “오래 생각하면 답변이 더 나빠지는” 문제도, 여러 갈래의 사고를 병렬로 짧게 해서 극복할 수 있음
- 기사에서 Deep Think는 병렬적 사고 방식으로 다양한 아이디어를 한 번에 생성, 동시에 고려, 통합, 수정해 최종 해답에 도달한다고 밝혔음. 이 설명으로 다중 에이전트 활용 여부가 명확하지 않아 여러 해석 여지가 있다고 생각함
- Grok-4 heavy는 툴을 사용해서 벤치마크에 나오는 많은 문제를 손쉽게 푸는 구조라서 직접 비교에 한계가 있음
- 구글 방식이 Mixture of Experts(전문가 혼합)과 어떻게 다른지 궁금함. 전문가 혼합은 아예 각 전문가마다 가중치를 다르게 학습하는데, 여기서는 temperature 조정만으로 사고의 다양성을 얻음. 동일 모델을 여러 번 돌려 아이디어 다양성을 얻는 게, 아예 아키텍처/가중치가 다른 모델 여러 개를 동시에 돌리는 것보다 어느 쪽이 나은지 논문에서 정확하게 비교된 자료가 있는지 궁금함
- 아직 주요 LLM들을 일종의 대결 방식으로 한 자리에서 돌려서 최종 답변을 고르는 앱이 안 나온 점이 의외임
OpenAI가 $200, Anthropic이 $100·$200, Gemini는 $250, Grok은 $300까지 가격을 올림. OpenAI만 유일하게 “사실상 무제한”이라고 했고 실제로 ChatGPT Pro플랜에서 한도에 도달한 적 없음. Claude Max 같은 경우는 여러 번 한도에 걸렸었음. 그런데 이런 회사들이 한도를 명확히 공개하지 않는 이유가 궁금함
- 이중 과금이 목적임. 공정한 가격이라면 쿼리당 토큰 단위로 요금 보여줘서, 사용한 만큼만 내면 됨. 하지만 회사들은 정기적 고정수입을 원하고, 실사용량은 최소화하려고 하기 때문에 매달 또는 연단위로 무제한처럼 판매함. 결국 실제 사용량보다 더 비싸게 내게 만드는 구조임
- 한도를 미리 공개하지 않는 진짜 이유는, 시장 상황 또는 인프라 부담에 따라 회사 측에서 한도를 유동적으로 조정할 수 있어야 하기 때문임. 예전 ChatGPT 이미지 생성(Ghibli craze) 열풍처럼 갑자기 트래픽이 몰릴 때 한도 제한을 걸기도 하고, 지금처럼 여유 있을 땐 풀어버릴 수 있음
- 한도를 투명하게 하면 사용자들이 한도에 맞춰 꼼수 쓰기 시작하고, 그러다 보면 결국 모두에게 한도가 더 줄게 됨. 그러니 공개하지 않는 편이 실질적으론 대부분에게 더 나은 선택임
최근 몇 달 간 Gemini를 써보며, 오히려 점점 더 나빠졌다고 느낌. 헛소리(hallucination)가 너무 자주 나오고, 이를 지적해도 AI가 고집을 피움. 신뢰하기 힘들어짐
- 내 경험상 Flash는 점점 좋아지고 있음. Pro에 돈을 내고 있음에도 Flash를 더 자주 씀. Pro는 최신 정보 검색을 거의 하지 않으면서 옛 트레이닝 데이터만 반복하는 경우가 많아서 실망스럽지만, Flash는 이런 문제가 거의 없음. 코딩엔 Pro를 Gemini CLI에서 활용하고 있는데, 단순히 코드 작성뿐만 아니라 디자인 문서 작성, 주 단위 과제 분해, 일정 관리 등에서 엄청난 실력을 보임. 이처럼 체계적 구조만 잡아주면 자기 맥락도 알아서 챙기는 느낌임
- 나도 비슷한 경험임. Gemini Pro를 더 이상 안 씀. 너무 장황하고 내용이 모순적임. Claude Sonnet 4는 잘 대답함. 최근 Sonnet은 Opus와의 실력 격차가 많이 좁혀진 느낌임. 새 쿼터제를 도입한 이후엔 Sonnet부터 먼저 쓰게 됨. 이제는 Opus와 비교해도 어렵거나 복잡한 문제 대부분을 잘 해결함. 불과 몇 달 전만 해도 이렇게까지는 못 느꼈음
- 나 역시 갈수록 Gemini가 점점 나빠진다고 느낌. 다만 fiction.livebench 같은 벤치마크에서는 그 차이를 수치화하긴 어려움. 혹시 지나치게 모델을 aggressive quantizing(성능 저하가 발생하는 양자화)하는 중인지, 아니면 우리 기대치가 계속 올라가는 것인지 궁금함
- 주로 툴 연동 문제인지, 그리고 AI studio에서 쓰는지 아니면 API로 쓰는지 묻고 싶음. 내가 써본 바로는 사용 불가 툴을 허구로 만들고, 결과에 과도한 자신감을 보이는 경우가 많았음
Google AI Ultra 구독자면 오늘부터 Gemini 앱에서 Deep Think(고정된 프롬프트 수 제공) 기능을 쓸 수 있다고 안내됨. 근데 “고정 세트”라는게 고정된 개수인지, 아니면 프롬프트 타입이 정해져 있다는 의미인지 더 구체적으로 알고 싶음
- 하루 10번 요청이 한도임. 프롬프트 하나에 약 30분 생각하므로, 일반 코딩이나 팬픽 작성보다는 연구나 다층 종합적 문제에 특화됨
Gemini CLI로 일정짜기 할 때, 명확하게 여러 차례 돌발 행동 하지 말라고 지시하고 개입해도 자꾸 임의로 변경을 시도해서 계획을 꼬아버리는 경우가 많음
- 이런 에이전트 계열은 오히려 혼란을 자주 일으킴. Claude Code(Anthropic)는 모델 성능을 최대한 이끌어내는 방식을 써서 인기임. 그런데 Gemini CLI는 오히려 Gemini Pro 2.5의 본래 성능을 저하시킴. 그래서 이제 Gemini CLI는 아예 포기함(무료라도). 그렇지만 프롬프트 위주 작업에서는 여전히 매우 강력해서 정기적으로 활용 중임
- 나 역시 비슷함. Gemini CLI에 추상적이고 큰 과제를 그냥 맡기면 자꾸 실수를 연발함. 대신 명확한 구조(컨텍스트 생성을 단계별로 분리)만 조금 잡아주면 정말 놀라운 성과가 나옴. 첫 단계에서 코드를 읽고 요구사항 정의서를 작성만 하라고 지시함. 이후엔 해당 결과물을 참고해 상세한 요구명세서와 API 설계, tricky logic의 의사코드 등도 단계별로 문서화하도록 요청함. 마지막엔 전체 개발을 주,일,시간 별 업무 플랜으로 쪼개게 시키고, 충분한 정보를 투입해서 최종적으로 코드를 작성하도록 함. 완전 자동화하면 스크립트로도 되겠지만, 실제론 사람이 검수하고 피드백하면서 브레인스토밍을 반복하는 구조라서 더 효과적임. 컨텍스트 90% 이상을 자기 힘으로 생성하면서, 최근엔 이런 방식이라면 대부분 실수를 거의 안 하게 됨

답변달기