Gemini 2.0 출시
(developers.googleblog.com)Gemini 2.0: 개발자를 위한 차세대 AI 모델
- Google에서 개발한 최첨단 AI 모델로, 개발자들이 AI의 미래를 구축할 수 있도록 지원합니다.
- Gemini 1.0 출시 이후 수백만 명의 개발자가 Google AI Studio 및 Vertex AI를 통해 109개 언어로 Gemini를 사용하고 있습니다.
- Gemini 2.0 Flash Experimental을 통해 더욱 몰입감 있고 상호작용적인 애플리케이션 개발이 가능하며, 개발자를 대신하여 작업을 수행하는 새로운 코딩 에이전트를 제공합니다.
Gemini 2.0 Flash
- Gemini 1.5 Flash의 성공을 기반으로 구축된 모델로, 1.5 Pro보다 2배 빠르면서도 강력한 성능을 제공합니다.
- 새로운 멀티모달 출력 기능과 기본 도구 사용 기능을 제공합니다.
- 실시간 오디오 및 비디오 스트리밍을 통해 동적인 애플리케이션을 구축할 수 있는 멀티모달 라이브 API를 도입합니다.
- 개발자는 Google AI Studio 및 Vertex AI에서 실험 단계의 Gemini 2.0 Flash를 테스트하고 탐색할 수 있으며, 내년 초에 일반 출시될 예정입니다.
주요 기능:
-
향상된 성능:
- Gemini 1.5 Pro보다 강력하면서도 Flash 모델의 속도와 효율성을 유지합니다.
- 멀티모달, 텍스트, 코드, 비디오, 공간 이해 및 추론 성능이 향상되었습니다.
- 특히, 공간 이해 능력 향상으로 복잡한 이미지에서 작은 객체의 경계 상자 생성 정확도가 향상되었습니다.
-
새로운 출력 방식:
- 단일 API 호출을 통해 텍스트, 오디오, 이미지를 포함하는 통합된 응답을 생성할 수 있습니다.
- SynthID 보이지 않는 워터마크를 모든 이미지 및 오디오 출력에 적용하여 오정보 및 오귀인 문제를 줄입니다.
- 다국어 네이티브 오디오 출력: 8가지 고품질 음성, 다양한 언어 및 억양을 선택하여 텍스트 음성 변환 오디오 출력을 세밀하게 제어할 수 있습니다.
- 네이티브 이미지 출력: 이미지를 생성하고, 대화형 멀티턴 편집을 지원하여 이전 출력을 기반으로 이미지를 개선할 수 있습니다. 텍스트와 이미지를 혼합하여 레시피와 같은 멀티모달 콘텐츠를 생성하는 데 유용합니다.
-
기본 도구 사용:
- 에이전트 경험 구축을 위한 기본적인 기능인 도구 사용 능력을 갖추고 있습니다.
- Google 검색 및 코드 실행과 같은 도구를 기본적으로 호출할 수 있으며, 사용자 정의 함수 호출을 통해 타사 기능도 사용할 수 있습니다.
- Google 검색을 도구로 사용하면 더 사실적이고 포괄적인 답변을 제공하고 게시자에게 트래픽을 증가시킵니다.
- 여러 검색을 병렬로 실행하여 여러 소스에서 관련 정보를 동시에 찾아 정확도를 높일 수 있습니다.
-
멀티모달 라이브 API:
- 카메라 또는 화면에서 오디오 및 비디오 스트리밍 입력을 사용하여 실시간 멀티모달 애플리케이션을 구축할 수 있습니다.
- 중단 및 음성 활동 감지와 같은 자연스러운 대화 패턴을 지원합니다.
- 단일 API 호출로 복잡한 사용 사례를 해결하기 위해 여러 도구를 통합할 수 있습니다.
AI 코드 지원의 발전
- AI 코드 지원이 단순한 코드 검색에서 개발자 워크플로우에 내장된 AI 기반 도우미로 빠르게 진화하고 있습니다.
- Gemini 2.0을 활용한 코딩 에이전트는 개발자를 대신하여 작업을 수행할 수 있습니다.
- 코드 실행 도구를 갖춘 2.0 Flash는 실제 소프트웨어 엔지니어링 작업에서 에이전트 성능을 테스트하는 SWE-bench Verified에서 51.8%의 성공률을 달성했습니다.
줄스(Jules): AI 기반 코드 에이전트
- Python 및 Javascript 코딩 작업을 처리하는 실험적인 AI 기반 코드 에이전트입니다.
- GitHub 워크플로우와 통합되어 비동기적으로 작동하며, 버그 수정 및 기타 시간 소모적인 작업을 처리합니다.
- 줄스는 문제 해결을 위한 포괄적인 다단계 계획을 수립하고, 여러 파일을 효율적으로 수정하며, GitHub에 직접 수정 사항을 적용하기 위한 풀 리퀘스트를 준비합니다.
줄스의 장점:
- 생산성 향상: 비동기 코딩을 통해 문제 및 코딩 작업을 줄스에게 할당하여 효율성을 높입니다.
- 진행 상황 추적: 실시간 업데이트를 통해 정보를 얻고 주의가 필요한 작업을 우선 순위를 정할 수 있습니다.
- 개발자 제어: 줄스가 생성한 계획을 검토하고 피드백을 제공하거나 조정을 요청할 수 있습니다. 줄스가 작성한 코드를 검토하고 프로젝트에 병합할 수 있습니다.
- 현재 신뢰할 수 있는 테스터 그룹에 제공되며, 2025년 초에 다른 개발자에게도 제공될 예정입니다.
Colab의 데이터 과학 에이전트
- 데이터 세트를 업로드하고 몇 분 안에 인사이트를 얻을 수 있는 실험적인 데이터 과학 에이전트를 labs.google/code에서 제공합니다.
- Colab에 동일한 에이전트 기능을 통합하여 Gemini 2.0을 사용합니다.
- 자연어 지침을 통해 분석 목표를 설명하면 자동으로 노트북이 생성되어 연구 및 데이터 분석을 가속화할 수 있습니다.
- 신뢰할 수 있는 테스터 프로그램을 통해 조기 액세스를 제공하며, 2025년 상반기에 Colab 사용자에게 더 광범위하게 출시될 예정입니다.
개발자 지원
- Gemini 2.0 모델은 개발자가 더 빠르고 쉽게 강력한 AI 앱을 구축할 수 있도록 지원합니다.
- Android Studio, Chrome DevTools 및 Firebase와 같은 플랫폼에 Gemini 2.0을 통합할 예정입니다.
- Visual Studio Code, IntelliJ, PyCharm 등 인기 있는 IDE에서 향상된 코딩 지원 기능을 위해 Gemini Code Assist에서 Gemini 2.0 Flash를 사용할 수 있습니다.