# 구글, Gemini 2.5 출시

> Clean Markdown view of GeekNews topic #19962. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19962](https://news.hada.io/topic?id=19962)
- GeekNews Markdown: [https://news.hada.io/topic/19962.md](https://news.hada.io/topic/19962.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-26T09:42:24+09:00
- Updated: 2025-03-26T09:42:24+09:00
- Original source: [blog.google](https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/)
- Points: 9
- Comments: 3

## Summary

Gemini 2.5는 복잡한 문제 해결을 위해 설계된 추론 기반 AI 모델로, LMArena 순위에서 큰 격차로 1위를 차지하며 뛰어난 성능을 보였습니다. 기존 모델과 달리 응답 전에 스스로 사고 과정을 거치는 구조로 설계되어 정확성과 성능이 향상되었으며, DeepMind는 이를 위해 강화 학습과 Chain-of-Thought 프롬프트 기법을 활용해 AI의 추론 능력을 연구해왔습니다. 또한, Gemini 2.5는 멀티모달 처리 및 긴 컨텍스트 창을 유지하며, 다양한 정보 소스를 종합적으로 처리할 수 있어 개발자 및 기업 사용자에게 유용한 도구입니다.

## Topic Body

- Gemini 2.5는 복잡한 문제 해결을 위해 설계된 가장 지능적인 **추론 기반 AI 모델**  
- 최초 릴리스인 **Gemini 2.5 Pro Experimental**은 다양한 AI 벤치마크에서 최고 성능을 기록함  
- 특히 [LMArena](https://lmarena.ai/?leaderboard) 순위에서 큰 격차로 1위를 차지함  
- 기존 모델과 달리 **응답 전에 스스로 사고 과정을 거치는 구조**로 설계되어 정확성과 성능이 향상됨  
  
### AI에서의 '사고' 능력이란?  
- 단순한 분류나 예측을 넘어서, **정보 분석**, **논리적 결론 도출**, **맥락 이해**, **의사 결정** 등 고차원적인 인지 능력을 포함함  
- 이를 위해 DeepMind는 **강화 학습**, **Chain-of-Thought 프롬프트 기법** 등을 활용해 AI의 추론 능력을 연구해왔음  
- 기존의 [Gemini 2.0 Flash Thinking](https://deepmind.google/technologies/gemini/flash-thinking/) 모델에서 한 단계 더 발전된 성능을 보여줌  
  
### 앞으로의 방향  
- Gemini 2.5를 통해 향상된 기반 모델과 후처리 기법을 결합하여 **새로운 성능 수준 달성**  
- 향후 모든 Gemini 모델에 이 사고 능력을 기본 탑재하여, 더 복잡한 문제 해결과 고도화된 에이전트 지원 가능하게 할 예정임  
  
### Gemini 2.5 Pro 소개  
- **Gemini 2.5 Pro Experimental**은 지금까지 개발된 모델 중 가장 복잡한 작업 수행에 뛰어난 성능을 보임  
- 인간 선호도를 기준으로 평가하는 **LMArena**에서 큰 격차로 1위를 차지  
- **코딩, 수학, 과학** 벤치마크에서도 뛰어난 성능을 보임  
- 현재 [Google AI Studio](http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25) 및 [Gemini 앱](https://gemini.google.com/)에서 사용 가능하며, 곧 [Vertex AI](https://console.cloud.google.com/freetrial?redirectPath=/vertex-ai/studio)에서도 제공 예정  
- 향후 요금제가 도입되어 더 높은 호출 제한으로 확장 가능한 서비스 가능 예정  
  
### 향상된 추론 성능  
- **복잡한 논리 문제** 해결에서 최고 수준의 벤치마크 성적 기록  
- 추가적인 비용이 드는 테스트 기법(예: 다수결 투표) 없이도 우수한 성능 유지  
- GPQA, AIME 2025 등의 수학·과학 문제에서 선도적인 성능  
- 수백 명의 전문가가 설계한 고난이도 추론 테스트 'Humanity’s Last Exam'에서 도구 없이 18.8%라는 업계 최고 성적 기록  
  
### 고급 코딩 성능  
- **코딩 성능**이 Gemini 2.0 대비 크게 향상됨  
- **웹앱 생성**, **에이전트형 코드 작성**, **코드 변환 및 수정**에 뛰어난 능력  
- **SWE-Bench Verified** 평가에서 맞춤형 에이전트 사용 시 63.8% 달성  
- 단 한 줄의 프롬프트로 실행 가능한 비디오 게임을 생성하는 예시도 있음  
  
### Gemini 모델의 강점 계승  
- Gemini 2.5는 기존 Gemini 모델의 강점인 **멀티모달 처리** 및 **긴 컨텍스트 창**을 그대로 유지함  
- 1백만 토큰 컨텍스트 창 지원 (곧 2백만으로 확장 예정)  
- **텍스트, 오디오, 이미지, 비디오, 전체 코드 저장소** 등 다양한 정보 소스를 종합적으로 처리 가능  
- **개발자 및 기업 사용자**는 Google AI Studio, Gemini Advanced, Vertex AI 등을 통해 실험 및 테스트 가능

## Comments



### Comment 36384

- Author: wowfoot
- Created: 2025-03-26T18:10:37+09:00
- Points: 1

claud,gpt4.5를 압도하는데 grok3 를 여러번 시도할때를 이기지는 못하네.  
grok3 대단하다.

### Comment 36356

- Author: zxshinxz
- Created: 2025-03-26T10:18:59+09:00
- Points: 1

Google AI Studio에 Gemini 2.5 Pro가 나오면서 기존에 있던 Gemini 2.0 Pro들은 모두 사라졌네요.. 무료로 쏠쏠하게 잘 쓰고 있었는데 좀 아쉽습니다. Gemini 2.5 Pro는 분당 2회 제한에 하루에 50번 까지만 호출할 수 있는 제약이 좀 큰 것 같네요.

### Comment 36350

- Author: neo
- Created: 2025-03-26T09:42:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43473489) 
* LLM을 사용하여 소설과 같은 긴 글을 작성할 때 가장 큰 문제 중 하나는 세부 사항을 제공하면 모델이 지나치게 신경질적으로 반응하는 것임
  - 예를 들어, 서사 판타지의 사랑 관심사 프로필을 제공하면, 주인공이 거의 항상 3페이지 이내에 그들과 만나는 상황이 발생함
  - 이는 비논리적인 전개이며, 이를 변경하려는 시도는 효과가 없음
  - 현재 모델은 19페이지를 생성한 후에도 정상적인 전개를 보여주며, 많은 세부 사항을 포함하고 있음
  - 매우 인상적임

* 수학 퍼즐을 사용하여 다양한 모델을 벤치마크로 사용해 왔음
  - 이 퍼즐은 컴퓨터로 해결하는 데 약 3일이 걸렸으며, 수학 전공자는 손으로 하루 만에 해결했음
  - Gemini 2.5는 이 퍼즐을 처음으로 해결한 모델이며, 이는 LLM이 수학적 추론에서 인구의 95% 이상보다 뛰어나다는 것을 의미함
  - 퍼즐은 세 사람이 원형으로 서 있고, 각 사람의 머리 위에 양의 정수가 떠 있으며, 두 수의 합이 세 번째 수와 같음
  - 첫 번째 사람은 자신의 수를 모른다고 하고, 두 번째 사람도 모른다고 하며, 세 번째 사람도 모른다고 함
  - 다시 첫 번째 사람에게 물었을 때, 그는 65라고 답함
  - 세 수의 곱은 무엇인지 묻는 퍼즐임

* 오디오 전사 및 복잡한 사진에서 생물 주위에 경계 상자를 그리는 작업에서 매우 잘 수행했음
  - 자전거를 타는 펠리컨을 그려주기도 했음
  - 관련 노트는 링크에서 확인 가능함

* 벤치마크에서 전례 없는 방식으로 최고 성과를 기록했음
  - 높은 품질과 명확한 결과를 보여주지만, 약간 느린 편임
  - Google이 다시 큰 성과를 내고 있음

* Gemini 2.5 Pro는 aider polyglot 리더보드에서 73%의 점수로 SOTA를 기록했음
  - 이전 Gemini 모델보다 큰 도약을 보여줌
  - 효율적인 diff-like 편집 형식을 효과적으로 사용한 첫 번째 Gemini 모델임

* 이러한 발표는 템플릿처럼 보이기 시작했음
  - 최첨단 모델
  - X, Y, Z와의 벤치마크 비교
  - "더 나은" 추론
  - 훌륭한 모델일 수 있지만 반복되는 텍스트는 흥미를 떨어뜨림

* Gemini 2.5는 크게 향상된 기본 모델과 개선된 후처리를 결합하여 새로운 성능 수준을 달성했음
  - 앞으로는 이러한 사고 능력을 모든 모델에 직접 구축하여 더 복잡한 문제를 처리하고 더 많은 능력 있는, 상황 인식 에이전트를 지원할 것임
  - 인터넷에 연결되어 있으며, 필요할 때 추론 모델로 작동함
  - 최근 출시된 캔버스 모드를 이 모델에 지원할 수 있기를 바람

* Dart 라이브러리의 버그 원인을 식별하기 위해 LLM에 전체 코드베이스와 버그 설명을 제공하는 테스트 케이스를 사용했음
  - 약 360,000개의 토큰을 포함함
  - 한 달 전 주요 모델에서 시도했지만, 이 모델만이 올바른 수정을 식별했음

* Gemini를 사용할 계획이라면, 다음과 같은 주의 사항이 있음
  - 기밀 정보나 리뷰어가 보거나 Google이 사용할 수 있는 데이터를 입력하지 말 것
  - Google AI의 품질 향상 및 제품 개선을 위해 인간 리뷰어가 대화를 읽고 주석을 달며 처리함
  - 이 과정에서 개인 정보 보호를 위해 대화를 Google 계정과 분리함

* 2.0 모델이 아직 오래되지 않았는데, 이름에 +0.5가 붙은 이유가 궁금함
  - 마케팅 때문인지, 새로운 모델 구조를 나타내는 것인지, 2.0 기반의 더 많은 훈련 데이터인지, 새로운 서비스 인프라인지 궁금함
  - *.5 명명법이 처음 등장했을 때 다소 어리석다고 느꼈음
  - OpenAI가 3.5를 출시했을 때 이미 4를 준비 중이라고 했으며, ChatGPT에 더 적합하도록 3을 조정 중이라고 했음
  - Anthropic이 Sonnet 3, 3.5, 3.5 (new), 3.7로 모델을 명명한 것이 이 명명법의 최악의 사례라고 생각함
  - semver, 날짜 기반("Gemini Pro 2025"), 의미 있는 문자와 숫자 조합(예: 4o - "Omni")을 선호함
