구글, Gemini 2.5 출시

▲

GN⁺ 2025-03-26 | parent | ★ favorite | on: 구글, Gemini 2.5 출시 (blog.google)

Hacker News 의견

LLM을 사용하여 소설과 같은 긴 글을 작성할 때 가장 큰 문제 중 하나는 세부 사항을 제공하면 모델이 지나치게 신경질적으로 반응하는 것임
- 예를 들어, 서사 판타지의 사랑 관심사 프로필을 제공하면, 주인공이 거의 항상 3페이지 이내에 그들과 만나는 상황이 발생함
- 이는 비논리적인 전개이며, 이를 변경하려는 시도는 효과가 없음
- 현재 모델은 19페이지를 생성한 후에도 정상적인 전개를 보여주며, 많은 세부 사항을 포함하고 있음
- 매우 인상적임
수학 퍼즐을 사용하여 다양한 모델을 벤치마크로 사용해 왔음
- 이 퍼즐은 컴퓨터로 해결하는 데 약 3일이 걸렸으며, 수학 전공자는 손으로 하루 만에 해결했음
- Gemini 2.5는 이 퍼즐을 처음으로 해결한 모델이며, 이는 LLM이 수학적 추론에서 인구의 95% 이상보다 뛰어나다는 것을 의미함
- 퍼즐은 세 사람이 원형으로 서 있고, 각 사람의 머리 위에 양의 정수가 떠 있으며, 두 수의 합이 세 번째 수와 같음
- 첫 번째 사람은 자신의 수를 모른다고 하고, 두 번째 사람도 모른다고 하며, 세 번째 사람도 모른다고 함
- 다시 첫 번째 사람에게 물었을 때, 그는 65라고 답함
- 세 수의 곱은 무엇인지 묻는 퍼즐임
오디오 전사 및 복잡한 사진에서 생물 주위에 경계 상자를 그리는 작업에서 매우 잘 수행했음
- 자전거를 타는 펠리컨을 그려주기도 했음
- 관련 노트는 링크에서 확인 가능함
벤치마크에서 전례 없는 방식으로 최고 성과를 기록했음
- 높은 품질과 명확한 결과를 보여주지만, 약간 느린 편임
- Google이 다시 큰 성과를 내고 있음
Gemini 2.5 Pro는 aider polyglot 리더보드에서 73%의 점수로 SOTA를 기록했음
- 이전 Gemini 모델보다 큰 도약을 보여줌
- 효율적인 diff-like 편집 형식을 효과적으로 사용한 첫 번째 Gemini 모델임
이러한 발표는 템플릿처럼 보이기 시작했음
- 최첨단 모델
- X, Y, Z와의 벤치마크 비교
- "더 나은" 추론
- 훌륭한 모델일 수 있지만 반복되는 텍스트는 흥미를 떨어뜨림
Gemini 2.5는 크게 향상된 기본 모델과 개선된 후처리를 결합하여 새로운 성능 수준을 달성했음
- 앞으로는 이러한 사고 능력을 모든 모델에 직접 구축하여 더 복잡한 문제를 처리하고 더 많은 능력 있는, 상황 인식 에이전트를 지원할 것임
- 인터넷에 연결되어 있으며, 필요할 때 추론 모델로 작동함
- 최근 출시된 캔버스 모드를 이 모델에 지원할 수 있기를 바람
Dart 라이브러리의 버그 원인을 식별하기 위해 LLM에 전체 코드베이스와 버그 설명을 제공하는 테스트 케이스를 사용했음
- 약 360,000개의 토큰을 포함함
- 한 달 전 주요 모델에서 시도했지만, 이 모델만이 올바른 수정을 식별했음
Gemini를 사용할 계획이라면, 다음과 같은 주의 사항이 있음
- 기밀 정보나 리뷰어가 보거나 Google이 사용할 수 있는 데이터를 입력하지 말 것
- Google AI의 품질 향상 및 제품 개선을 위해 인간 리뷰어가 대화를 읽고 주석을 달며 처리함
- 이 과정에서 개인 정보 보호를 위해 대화를 Google 계정과 분리함
2.0 모델이 아직 오래되지 않았는데, 이름에 +0.5가 붙은 이유가 궁금함
- 마케팅 때문인지, 새로운 모델 구조를 나타내는 것인지, 2.0 기반의 더 많은 훈련 데이터인지, 새로운 서비스 인프라인지 궁금함
- *.5 명명법이 처음 등장했을 때 다소 어리석다고 느꼈음
- OpenAI가 3.5를 출시했을 때 이미 4를 준비 중이라고 했으며, ChatGPT에 더 적합하도록 3을 조정 중이라고 했음
- Anthropic이 Sonnet 3, 3.5, 3.5 (new), 3.7로 모델을 명명한 것이 이 명명법의 최악의 사례라고 생각함
- semver, 날짜 기반("Gemini Pro 2025"), 의미 있는 문자와 숫자 조합(예: 4o - "Omni")을 선호함