8P by xguru 15일전 | favorite | 댓글 1개
  • 브라우저를 사용하는 새로운 방법
  • Gemini 2.0 기반으로 강력한 멀티모달 이해 및 추론 능력을 이용 브라우저 작업을 자동화
  • 브라우저 화면의 픽셀, 텍스트, 코드, 이미지, 폼 등 모든 요소를 이해하고 추론
  • Native Multimodality : 브라우저 상의 모든 콘텐츠를 이해하고 추론
    • 웹사이트의 텍스트, 코드, 이미지 등 복합적인 요소를 분석
    • 음성 명령에 응답하고 작업 진행 상황을 시각적으로 피드백 제공
  • Browser Interaction : 복잡한 웹사이트를 실시간으로 이해 및 탐색
    • 사용자를 대신하여 웹사이트와 상호작용
    • 반복 작업을 자동화하여 시간 절약
    • 명령을 이해하지 못할 경우 명확한 설명 요청
  • Reasoning : 복잡한 지시사항을 이해하고 이를 실행 가능한 단계로 나누어 수행
    • 웹 요소 간 관계와 기능을 파악
    • 작업 계획 및 실행 과정을 투명하게 보여 사용자가 의사 결정 과정을 이해 가능
  • 현재 소규모 신뢰 테스트 그룹에서만 사용 가능 : 테스트 참여를 원하면 대기자 명단에 등록 필요

AI에 최적화된 headless 브라우저가 나오고…
웹서버는 그 브라우저에 최적화된 응답을 내려주고…
그들(?)끼리 대화하는 날이 멀지 않은…