Google Deepmind, 에이전틱 시대를 위한 새 AI 모델 Gemini 2.0 공개

(blog.google)

2P by GN⁺ 2024-12-12 | ★ favorite | 댓글 1개

Gemini 1.0은 텍스트, 비디오, 이미지, 오디오 및 코드 전반에 걸쳐 정보를 처리할 수 있는 다중모드 모델로 혁신을 이루었음
Gemini 2.0은 이 비전을 더욱 진전시켜 세계를 이해하고 여러 단계를 계획하며 작업을 수행할 수 있는 에이전틱 모델로 진화함
Gemini 2.0은 Google 검색과 같은 주요 제품에 통합되어, 더 복잡한 주제와 다단계 질문도 처리할 수 있는 능력을 제공함

Gemini 2.0 Flash의 주요 특징

1.5 Flash의 성공을 기반으로 더욱 향상된 성능과 빠른 응답 시간을 제공
1.5 Pro보다 2배 빠른 속도로 주요 벤치마크에서 더 우수한 성능
이미지, 비디오, 오디오와 같은 멀티모달 입력뿐만 아니라 텍스트와 혼합된 이미지 생성 및 다국어 음성 합성도 지원
Google Search, 코드 실행, 사용자 정의 함수 등의 도구를 네이티브하게 호출 가능
개발자와 신뢰할 수 있는 테스터들에게 우선 공개되며, 내년 초 더 넓은 범위로 출시될 예정임

연구 프로젝트 소개

Project Astra : 향상된 메모리 기능을 갖춘 범용 AI 어시스턴트
- 다국어 대화, Google Search/Lens/Maps 활용, 10분 내외의 세션 메모리 등 기능 향상
- Android 기기를 통해 신뢰할 수 있는 테스터로부터 피드백을 수집하며 발전 중
Project Mariner : 브라우저와 상호작용하며 복잡한 작업을 도울 수 있는 연구 프로토타입
- WebVoyager 벤치마크에서 83.5%의 높은 성과 달성
- 사용자가 최종 작업을 승인하기 전에 확인을 요청하는 안전 조치 내장
Jules : GitHub 워크플로우에 통합된 AI 기반 코딩 에이전트
- 개발자가 이슈를 해결하고 계획을 실행하는 과정을 지원함

AI 에이전트의 응용 분야

게임 개발사 Supercell과 협력하여 게임 내 AI 에이전트 활용을 탐구 중임
로봇 공학 분야에서 Gemini 2.0의 공간 추론 능력을 적용하는 실험을 진행 중임

안전성과 책임감 있는 개발

새로운 기술 개발에 있어 단계적이고 탐색적인 접근 방식을 채택
AI 지원 레드팀 접근 방식을 통해 위험 탐지와 완화 방안을 자동으로 생성
Project Mariner에서는 악의적인 프롬프트 주입 시도로부터 사용자를 보호하는 기능을 구현함
사용자의 개인정보 보호를 위한 제어 기능과 세션 삭제 기능을 제공

향후 계획

Gemini 앱과 다른 Google 제품에 Gemini 2.0의 기능을 확장할 예정
AGI를 향한 발전 과정에서 안전성과 책임감을 최우선으로 고려할 것

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2024-12-12 [-]

Hacker News 의견

새로운 llm-gemini 플러그인이 Gemini 2.0 Flash 모델을 지원함. 터미널에서 사용 방법을 공유함
- Gemini 모델은 Python 코드를 작성하고 실행할 수 있는 기능이 있음
- 네트워크 호출은 불가능하지만, 다양한 접근을 시도함
- 시각적 설명에 뛰어난 성능을 보임
대기업은 방향 전환이 느리지만, 일단 방향을 잡으면 작은 기업이 할 수 없는 것을 이룰 수 있음
- Google은 이 분야에서 많은 인재를 보유하고 있으며, 좋은 결과를 얻고 있음
- LLM 모델의 제품화와 마케팅 능력은 아직 미지수지만, 성능은 뛰어남
Gemini 1.5 Pro를 대부분의 벤치마크에서 능가함
- Google DeepMind는 LLM 시대에 적응 중임
- TPU를 통해 하드웨어를 직접 제어함
새로운 SDK가 발표됨. 현대적 모범 사례를 따르는 것으로 보임
- OpenAI 호환 엔드포인트를 제공해 왔지만, 장기 지원 여부는 불확실했음
- Kubernetes 클러스터와 GCP 버킷 설정을 권장함
Google의 새로운 릴리스가 즉시 사용 가능하여 기쁨
- Gemini Flash 2.0이 Advent of Code 문제에서 Gemini Pro 1.5를 능가함
- Flash 2.0이 컴파일 오류를 수정함
"agentic"이라는 단어가 불쾌하게 느껴짐
- "versatile", "multifaceted", "autonomous" 같은 단어가 더 적절함
Gemini 2 모델은 오디오 및 이미지 생성 기능을 지원함
- 이미지 생성은 1월에 일반적으로 제공될 예정임
- 컴퓨터 비전 작업이 LLM을 통해 가능해질 것임
Gemini 2가 4o를 챗봇 아레나에서 앞서고 있음
"agentic"이라는 단어가 부적절하다고 생각함
- 대부분 시스템 프롬프트와 도구로 구성된 파이프라인임
iPhone의 Safari 브라우저에서 Google AI Studio를 통해 Gemini 2.0 Flash에 접근함
- 카메라를 통해 본 것을 정확히 식별함
- 영어와 일본어 텍스트를 읽을 수 있음
- 피아노 음을 시각적으로 식별했지만, 소리만으로는 불가능했음

답변달기

Google Deepmind, 에이전틱 시대를 위한 새 AI 모델 Gemini 2.0 공개

Gemini 2.0 Flash의 주요 특징

연구 프로젝트 소개

AI 에이전트의 응용 분야

안전성과 책임감 있는 개발

향후 계획

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견