2P by neo 5일전 | favorite | 댓글 1개
  • Gemini 1.0은 텍스트, 비디오, 이미지, 오디오 및 코드 전반에 걸쳐 정보를 처리할 수 있는 다중모드 모델로 혁신을 이루었음
  • Gemini 2.0은 이 비전을 더욱 진전시켜 세계를 이해하고 여러 단계를 계획하며 작업을 수행할 수 있는 에이전틱 모델로 진화함
  • Gemini 2.0은 Google 검색과 같은 주요 제품에 통합되어, 더 복잡한 주제와 다단계 질문도 처리할 수 있는 능력을 제공함

Gemini 2.0 Flash의 주요 특징

  • 1.5 Flash의 성공을 기반으로 더욱 향상된 성능과 빠른 응답 시간을 제공
  • 1.5 Pro보다 2배 빠른 속도로 주요 벤치마크에서 더 우수한 성능
  • 이미지, 비디오, 오디오와 같은 멀티모달 입력뿐만 아니라 텍스트와 혼합된 이미지 생성 및 다국어 음성 합성도 지원
  • Google Search, 코드 실행, 사용자 정의 함수 등의 도구를 네이티브하게 호출 가능
  • 개발자와 신뢰할 수 있는 테스터들에게 우선 공개되며, 내년 초 더 넓은 범위로 출시될 예정임

연구 프로젝트 소개

  • Project Astra : 향상된 메모리 기능을 갖춘 범용 AI 어시스턴트
    • 다국어 대화, Google Search/Lens/Maps 활용, 10분 내외의 세션 메모리 등 기능 향상
    • Android 기기를 통해 신뢰할 수 있는 테스터로부터 피드백을 수집하며 발전 중
  • Project Mariner : 브라우저와 상호작용하며 복잡한 작업을 도울 수 있는 연구 프로토타입
    • WebVoyager 벤치마크에서 83.5%의 높은 성과 달성
    • 사용자가 최종 작업을 승인하기 전에 확인을 요청하는 안전 조치 내장
  • Jules : GitHub 워크플로우에 통합된 AI 기반 코딩 에이전트
    • 개발자가 이슈를 해결하고 계획을 실행하는 과정을 지원함

AI 에이전트의 응용 분야

  • 게임 개발사 Supercell과 협력하여 게임 내 AI 에이전트 활용을 탐구 중임
  • 로봇 공학 분야에서 Gemini 2.0의 공간 추론 능력을 적용하는 실험을 진행 중임

안전성과 책임감 있는 개발

  • 새로운 기술 개발에 있어 단계적이고 탐색적인 접근 방식을 채택
  • AI 지원 레드팀 접근 방식을 통해 위험 탐지와 완화 방안을 자동으로 생성
  • Project Mariner에서는 악의적인 프롬프트 주입 시도로부터 사용자를 보호하는 기능을 구현함
  • 사용자의 개인정보 보호를 위한 제어 기능과 세션 삭제 기능을 제공

향후 계획

  • Gemini 앱과 다른 Google 제품에 Gemini 2.0의 기능을 확장할 예정
  • AGI를 향한 발전 과정에서 안전성과 책임감을 최우선으로 고려할 것
Hacker News 의견
  • 새로운 llm-gemini 플러그인이 Gemini 2.0 Flash 모델을 지원함. 터미널에서 사용 방법을 공유함

    • Gemini 모델은 Python 코드를 작성하고 실행할 수 있는 기능이 있음
    • 네트워크 호출은 불가능하지만, 다양한 접근을 시도함
    • 시각적 설명에 뛰어난 성능을 보임
  • 대기업은 방향 전환이 느리지만, 일단 방향을 잡으면 작은 기업이 할 수 없는 것을 이룰 수 있음

    • Google은 이 분야에서 많은 인재를 보유하고 있으며, 좋은 결과를 얻고 있음
    • LLM 모델의 제품화와 마케팅 능력은 아직 미지수지만, 성능은 뛰어남
  • Gemini 1.5 Pro를 대부분의 벤치마크에서 능가함

    • Google DeepMind는 LLM 시대에 적응 중임
    • TPU를 통해 하드웨어를 직접 제어함
  • 새로운 SDK가 발표됨. 현대적 모범 사례를 따르는 것으로 보임

    • OpenAI 호환 엔드포인트를 제공해 왔지만, 장기 지원 여부는 불확실했음
    • Kubernetes 클러스터와 GCP 버킷 설정을 권장함
  • Google의 새로운 릴리스가 즉시 사용 가능하여 기쁨

    • Gemini Flash 2.0이 Advent of Code 문제에서 Gemini Pro 1.5를 능가함
    • Flash 2.0이 컴파일 오류를 수정함
  • "agentic"이라는 단어가 불쾌하게 느껴짐

    • "versatile", "multifaceted", "autonomous" 같은 단어가 더 적절함
  • Gemini 2 모델은 오디오 및 이미지 생성 기능을 지원함

    • 이미지 생성은 1월에 일반적으로 제공될 예정임
    • 컴퓨터 비전 작업이 LLM을 통해 가능해질 것임
  • Gemini 2가 4o를 챗봇 아레나에서 앞서고 있음

  • "agentic"이라는 단어가 부적절하다고 생각함

    • 대부분 시스템 프롬프트와 도구로 구성된 파이프라인임
  • iPhone의 Safari 브라우저에서 Google AI Studio를 통해 Gemini 2.0 Flash에 접근함

    • 카메라를 통해 본 것을 정확히 식별함
    • 영어와 일본어 텍스트를 읽을 수 있음
    • 피아노 음을 시각적으로 식별했지만, 소리만으로는 불가능했음