구글 I/O 2024 주요 발표 내용 정리

제미나이(Gemini) 모델 제품군

Gemini 1.5 Pro에서 200만 토큰 지원이 발표되었습니다. (Waitlist 모집 중) 공식 블로그에서는 "번역, 코딩, 추론 등 주요 사용 사례에 걸쳐 일련의 품질 개선"에 대해 언급했지만 벤치마크는 공개하지 않았습니다. 링크
기존 3개 모델 이어 네 번째 모델인 Gemini Flash를 추가되었습니다. 이번 모델은 "빠르고 자주 필요한 인공지능 작업에 최적화된" 모델이라고 설명하고, GPT3.5보다 약간 저렴한 가격으로 100만 토큰 용량을 제공한다고 강조했지만 속도에 대한 주장은 하지 않았습니다. 링크
지금까지 공개된 Gemini 제품군은 다음과 같습니다:
-- Ultra: "가장 큰 모델" (Gemini Advanced에서만 제공)
-- Pro: "일반 성능에 최적화된 최고의 모델" (오늘 API 미리보기 제공, 6월 GA)
-- Flash: "속도/효율성을 위한 경량 모델" (오늘 API 미리보기 제공, 6월 GA)
-- Nano: "기기 내 모델" (Chrome 126에 내장 예정)
Gemini Gems: 커스텀 GPT 버전인 Gemini 버전 링크
Gemini Live: "음성을 사용하여 심도 있는 양방향 대화를 할 수 있는 기능"으로, 2분짜리 데모가 있는 실시간 영상 이해 개인 비서 챗봇 Project Astra로 바로 이어집니다. 링크
LearnLM: "Gemini를 기반으로 하고 학습을 위해 파인튜닝된 새로운 모델 제품군" 링크

젬마(Gemma) 모델 제품군

이전에 7B와 2B였던 Gemma 2가 이제 최대 27B까지 증가했으며, 절반 크기(1 TPU에 맞춤)로 Llama-3-70B에 근접한 성능을 제공하는 훈련 중인 모델입니다. 이 역시 무료로 Local에서 실행 할 수 있게끔 공개 예정 입니다. 링크
PaliGemma - CodeGemma와 RecurrentGemma를 보완하는 PaLI-3에서 영감을 받은 최초의 비전-언어 오픈 모델입니다. 링크

기타 출시 내용

Veo: Sora와 vidu와 같은 비디오 생성 모델 입니다. DeepMind에서 공개되었으며 데모 영상만 선보였습니다. 링크
Imagen 3: 구글의 이미지 생성 모델로서 이전 모델에 비해 프롬프트에 대한 이해도 및 해석 능력이 향상되어 사용자의 부담을 줄여줍니다. (기존에 있던 Imegen의 다음세대 모델 입니다.) 링크
Music AI Sandbox - Udio/Suno와 경쟁하기 위해 YouTube와 DeepMind가 협력하고 있는 음악 생성 모델 입니다. 링크
SynthID 워터마킹이 이제 이미지, 오디오, 비디오(Veo 포함)뿐만 아니라 텍스트로도 확장되었습니다. 링크
-- SynthID는 구글이 개발한 인공지능 생성 제작물에 대한 워터마크(표식)으로 인공지능 생성된 콘텐츠들을 식별 할 수 있게 돕는 기술 입니다.
Trillium라는 이름으로 불리는 TPUv6 새로운 하드웨어가 공개 되었습니다. 성능 상으로는 기존 TPU에 비해 성능이 월등히 좋습니다. (4.7배의 성능 향상) 링크

그리고 Workspace, Email, Docs, Sheets, Photos, Search Overviews, Multi-step reasoning을 통한 검색, Android Circle to Search, Lens 등 구글 제품 전반에 걸친 AI 기술 접목을 발표했습니다.

CNET에서 정리한 12분 요약 영상

구글 I/O 2024 주요 발표 내용 정리

젬마(Gemma) 모델 제품군

기타 출시 내용

함께 보면 좋은 글 β

댓글과 토론