구글, Gemini 2.5 출시
(blog.google)- Gemini 2.5는 복잡한 문제 해결을 위해 설계된 가장 지능적인 추론 기반 AI 모델
- 최초 릴리스인 Gemini 2.5 Pro Experimental은 다양한 AI 벤치마크에서 최고 성능을 기록함
- 특히 LMArena 순위에서 큰 격차로 1위를 차지함
- 기존 모델과 달리 응답 전에 스스로 사고 과정을 거치는 구조로 설계되어 정확성과 성능이 향상됨
AI에서의 '사고' 능력이란?
- 단순한 분류나 예측을 넘어서, 정보 분석, 논리적 결론 도출, 맥락 이해, 의사 결정 등 고차원적인 인지 능력을 포함함
- 이를 위해 DeepMind는 강화 학습, Chain-of-Thought 프롬프트 기법 등을 활용해 AI의 추론 능력을 연구해왔음
- 기존의 Gemini 2.0 Flash Thinking 모델에서 한 단계 더 발전된 성능을 보여줌
앞으로의 방향
- Gemini 2.5를 통해 향상된 기반 모델과 후처리 기법을 결합하여 새로운 성능 수준 달성
- 향후 모든 Gemini 모델에 이 사고 능력을 기본 탑재하여, 더 복잡한 문제 해결과 고도화된 에이전트 지원 가능하게 할 예정임
Gemini 2.5 Pro 소개
- Gemini 2.5 Pro Experimental은 지금까지 개발된 모델 중 가장 복잡한 작업 수행에 뛰어난 성능을 보임
- 인간 선호도를 기준으로 평가하는 LMArena에서 큰 격차로 1위를 차지
- 코딩, 수학, 과학 벤치마크에서도 뛰어난 성능을 보임
- 현재 Google AI Studio 및 Gemini 앱에서 사용 가능하며, 곧 Vertex AI에서도 제공 예정
- 향후 요금제가 도입되어 더 높은 호출 제한으로 확장 가능한 서비스 가능 예정
향상된 추론 성능
- 복잡한 논리 문제 해결에서 최고 수준의 벤치마크 성적 기록
- 추가적인 비용이 드는 테스트 기법(예: 다수결 투표) 없이도 우수한 성능 유지
- GPQA, AIME 2025 등의 수학·과학 문제에서 선도적인 성능
- 수백 명의 전문가가 설계한 고난이도 추론 테스트 'Humanity’s Last Exam'에서 도구 없이 18.8%라는 업계 최고 성적 기록
고급 코딩 성능
- 코딩 성능이 Gemini 2.0 대비 크게 향상됨
- 웹앱 생성, 에이전트형 코드 작성, 코드 변환 및 수정에 뛰어난 능력
- SWE-Bench Verified 평가에서 맞춤형 에이전트 사용 시 63.8% 달성
- 단 한 줄의 프롬프트로 실행 가능한 비디오 게임을 생성하는 예시도 있음
Gemini 모델의 강점 계승
- Gemini 2.5는 기존 Gemini 모델의 강점인 멀티모달 처리 및 긴 컨텍스트 창을 그대로 유지함
- 1백만 토큰 컨텍스트 창 지원 (곧 2백만으로 확장 예정)
- 텍스트, 오디오, 이미지, 비디오, 전체 코드 저장소 등 다양한 정보 소스를 종합적으로 처리 가능
- 개발자 및 기업 사용자는 Google AI Studio, Gemini Advanced, Vertex AI 등을 통해 실험 및 테스트 가능
Google AI Studio에 Gemini 2.5 Pro가 나오면서 기존에 있던 Gemini 2.0 Pro들은 모두 사라졌네요.. 무료로 쏠쏠하게 잘 쓰고 있었는데 좀 아쉽습니다. Gemini 2.5 Pro는 분당 2회 제한에 하루에 50번 까지만 호출할 수 있는 제약이 좀 큰 것 같네요.
Hacker News 의견
-
LLM을 사용하여 소설과 같은 긴 글을 작성할 때 가장 큰 문제 중 하나는 세부 사항을 제공하면 모델이 지나치게 신경질적으로 반응하는 것임
- 예를 들어, 서사 판타지의 사랑 관심사 프로필을 제공하면, 주인공이 거의 항상 3페이지 이내에 그들과 만나는 상황이 발생함
- 이는 비논리적인 전개이며, 이를 변경하려는 시도는 효과가 없음
- 현재 모델은 19페이지를 생성한 후에도 정상적인 전개를 보여주며, 많은 세부 사항을 포함하고 있음
- 매우 인상적임
-
수학 퍼즐을 사용하여 다양한 모델을 벤치마크로 사용해 왔음
- 이 퍼즐은 컴퓨터로 해결하는 데 약 3일이 걸렸으며, 수학 전공자는 손으로 하루 만에 해결했음
- Gemini 2.5는 이 퍼즐을 처음으로 해결한 모델이며, 이는 LLM이 수학적 추론에서 인구의 95% 이상보다 뛰어나다는 것을 의미함
- 퍼즐은 세 사람이 원형으로 서 있고, 각 사람의 머리 위에 양의 정수가 떠 있으며, 두 수의 합이 세 번째 수와 같음
- 첫 번째 사람은 자신의 수를 모른다고 하고, 두 번째 사람도 모른다고 하며, 세 번째 사람도 모른다고 함
- 다시 첫 번째 사람에게 물었을 때, 그는 65라고 답함
- 세 수의 곱은 무엇인지 묻는 퍼즐임
-
오디오 전사 및 복잡한 사진에서 생물 주위에 경계 상자를 그리는 작업에서 매우 잘 수행했음
- 자전거를 타는 펠리컨을 그려주기도 했음
- 관련 노트는 링크에서 확인 가능함
-
벤치마크에서 전례 없는 방식으로 최고 성과를 기록했음
- 높은 품질과 명확한 결과를 보여주지만, 약간 느린 편임
- Google이 다시 큰 성과를 내고 있음
-
Gemini 2.5 Pro는 aider polyglot 리더보드에서 73%의 점수로 SOTA를 기록했음
- 이전 Gemini 모델보다 큰 도약을 보여줌
- 효율적인 diff-like 편집 형식을 효과적으로 사용한 첫 번째 Gemini 모델임
-
이러한 발표는 템플릿처럼 보이기 시작했음
- 최첨단 모델
- X, Y, Z와의 벤치마크 비교
- "더 나은" 추론
- 훌륭한 모델일 수 있지만 반복되는 텍스트는 흥미를 떨어뜨림
-
Gemini 2.5는 크게 향상된 기본 모델과 개선된 후처리를 결합하여 새로운 성능 수준을 달성했음
- 앞으로는 이러한 사고 능력을 모든 모델에 직접 구축하여 더 복잡한 문제를 처리하고 더 많은 능력 있는, 상황 인식 에이전트를 지원할 것임
- 인터넷에 연결되어 있으며, 필요할 때 추론 모델로 작동함
- 최근 출시된 캔버스 모드를 이 모델에 지원할 수 있기를 바람
-
Dart 라이브러리의 버그 원인을 식별하기 위해 LLM에 전체 코드베이스와 버그 설명을 제공하는 테스트 케이스를 사용했음
- 약 360,000개의 토큰을 포함함
- 한 달 전 주요 모델에서 시도했지만, 이 모델만이 올바른 수정을 식별했음
-
Gemini를 사용할 계획이라면, 다음과 같은 주의 사항이 있음
- 기밀 정보나 리뷰어가 보거나 Google이 사용할 수 있는 데이터를 입력하지 말 것
- Google AI의 품질 향상 및 제품 개선을 위해 인간 리뷰어가 대화를 읽고 주석을 달며 처리함
- 이 과정에서 개인 정보 보호를 위해 대화를 Google 계정과 분리함
-
2.0 모델이 아직 오래되지 않았는데, 이름에 +0.5가 붙은 이유가 궁금함
- 마케팅 때문인지, 새로운 모델 구조를 나타내는 것인지, 2.0 기반의 더 많은 훈련 데이터인지, 새로운 서비스 인프라인지 궁금함
- *.5 명명법이 처음 등장했을 때 다소 어리석다고 느꼈음
- OpenAI가 3.5를 출시했을 때 이미 4를 준비 중이라고 했으며, ChatGPT에 더 적합하도록 3을 조정 중이라고 했음
- Anthropic이 Sonnet 3, 3.5, 3.5 (new), 3.7로 모델을 명명한 것이 이 명명법의 최악의 사례라고 생각함
- semver, 날짜 기반("Gemini Pro 2025"), 의미 있는 문자와 숫자 조합(예: 4o - "Omni")을 선호함