Gemini 2.5 Computer Use 모델 공개 - UI를 직접 조작하는 에이전트용 AI

(blog.google)

3P by GN⁺ 5일전 | ★ favorite | 댓글 2개

Google이 Gemini 2.5 Pro 기반의 Computer Use 모델을 공개, 개발자들이 사용자 인터페이스를 직접 조작하는 에이전트를 만들 수 있도록 지원함
웹·모바일 제어 벤치마크에서 경쟁 모델보다 빠르고 정확한 성능을 보이며, Google AI Studio와 Vertex AI에서 프리뷰로 이용 가능
모델은 화면 캡처·사용자 요청·액션 히스토리를 입력으로 받아 클릭·입력·스크롤 등의 UI 조작 명령을 자동 생성함
안전성 확보를 위해 Per-step Safety Service와 사용자 확인 절차를 포함해 오남용 및 보안 위협을 방지
이미 Project Mariner, Firebase Testing Agent, AI Mode in Search 등에 적용되어 실무 수준의 자동화와 테스트 효율 개선을 입증

개요

Google DeepMind가 Gemini 2.5 Computer Use 모델을 출시함
- Gemini 2.5 Pro의 시각 이해 및 추론 기능을 바탕으로, 웹·모바일 UI를 직접 제어할 수 있는 에이전트용 모델임
- 기존 API 기반 자동화에서 한 단계 나아가 폼 입력·스크롤·로그인 처리 등 그래픽 인터페이스 상호작용을 수행함
- Google AI Studio와 Vertex AI를 통해 미리보기 형태로 제공됨

작동 방식

새로운 computer_use 도구를 통해 반복 루프 구조로 동작함
- 입력: 사용자 요청, 현재 UI의 스크린샷, 최근 액션 내역
- 출력: 클릭·입력·드래그 등 UI 액션 함수 호출
- 일부 고위험 작업(예: 결제)은 사용자 확인 절차를 요구함
각 액션 후 새 스크린샷과 URL이 모델에 다시 전달되어 다음 단계 실행
주로 웹 브라우저 환경에 최적화되어 있으나, 모바일 UI 제어에도 높은 성능을 보임

성능

Browserbase와 Google 자체 평가에서 업계 최고 수준의 정확도 및 지연 시간 기록
- Online-Mind2Web 등 벤치마크에서 경쟁 모델 대비 50% 이상 빠른 반응을 보임
- 복잡한 화면 내 컨텍스트 파악 정확도도 개선되어 18% 성능 향상 보고됨
UI 제어 작업 중 실패 상황을 자동 복구하는 기능도 포함되어 테스트 자동화에 유용함

안전성 설계

에이전트의 오남용 방지를 위해 모델에 내장 안전 기능을 포함함
- Per-step Safety Service: 모델이 제안한 액션을 실행 전 검증
- System Instructions: 특정 작업(보안·의료·CAPTCHA 등)에 대해 사용자 확인 또는 거부 규칙 설정 가능
개발자용 가이드에서 추가 보안 권장 사항 제공, 실서비스 적용 전 철저한 테스트 권장

초기 적용 사례

Google 내부 팀이 UI 테스트 자동화에 도입, 실패율 25% 감소
Project Mariner, Firebase Testing Agent, AI Mode in Search 등 실제 프로덕션 환경에서 사용 중
외부 초기 사용자 평가에서도 데이터 파싱 신뢰도 향상 및 실행 속도 개선 효과 보고
- 예: Autotab은 복잡한 컨텍스트 처리 정확도 18% 향상
- Google 결제 플랫폼은 실패 테스트 60% 자동 복구

시작하기

모델은 공개 프리뷰로 제공 중이며, 다음 채널에서 접근 가능
- Google AI Studio
- Vertex AI
- Browserbase 데모 환경에서 실시간 테스트 가능
개발자는 GitHub 레퍼런스 및 문서를 통해 Playwright 또는 클라우드 VM 환경에서 에이전트 루프 구성 가능
피드백은 Developer Forum에서 수집 중

▲

GN⁺ 5일전 [-]

Hacker News 의견

예전에 신호등이 있는 이차선 도로에서 기다리다가, 주도로에 차가 없으면 컴퓨터 비전 카메라 시스템으로 신호를 빨리 바꿀 수 있겠다는 생각을 했음
하지만 그 당시에는 컴퓨터 비전이 충분히 성숙하지 않았고, 대신 마그네틱 센서로 차를 감지할 수 있다는 걸 알게 되었음
훨씬 단순한 하드웨어와 소프트웨어로 쉽게 해결 가능한 문제였고, 내가 생각한 방법은 너무 복잡하고 비싼 솔루션이었음
컴퓨터를 사용할 때도 ML/AI가 구조화된 데이터에 최적화되어야 한다고 믿었음
하지만 세상은 복잡해졌고 컴퓨터 속도도 빨라져서, 이제는 AI가 화면을 보고 마우스를 움직이며 클릭하는 게 더 현실적인 상황임
- 이제 컴퓨터 비전 카메라가 일반적으로 사용되고 있음
  마그네틱 센서는 자전거 이용자를 잘 못 감지하기 때문에 요즘은 카메라가 더 선호됨
  시 교통 담당자 입장에서는 카메라가 혼잡 모니터링 도구로도 활용될 수 있어서 점점 더 인기가 많아지고 있음
- 우리 동네는 야간에 신호등에 간단한 광센서를 달아서 접근할 때 상향등을 켜면 신호가 바뀌는 시스템을 도입했음
  그렇지 않으면 주 도로에 밤새 파란불이 들어오는 구조였음
  차가 교차로에 도달하면 상향등 신호나 마그네틱 플럭스로만 신호가 바뀌는 식이었음
- 난 자전거를 자주 타는데, 야외에서는 팟캐스트를 듣다가 "Hey Google, 30초 전으로 돌아가"라고 말해서 다시 듣거나 광고를 넘기는 기능이 매우 유용함
  실내에서는 주로 TV프로그램이나 유튜브 영상을 캐스팅해서 봄
  종종 유튜브 영상을 바꾸고 싶은데, 음성 명령으로 유튜브는 겨우 동작하지만 결과가 별로임
  다른 서비스는 음성 명령이 거의 불가능함
  이상적인 세상에서는 Google이 이런 통합을 위해 훌륭한 API를 제공하고, 모든 앱이 이를 잘 반영해줬으면 좋겠음
  만약 그 과정을 건너뛰고도 훌륭한 결과가 나온다면 나에게 매우 가치 있는 경험이라고 생각함
  나만 해당되는 시나리오일 수 있지만, 정말 기대되는 부분임
- 컴퓨터 사용은 AI가 노동시장에 미치는 영향을 예측할 때 가장 중요한 벤치마크임
  ML/AI가 컴퓨터 상의 다양한 작업을 효율적으로 수행할 더 좋은 방법은 많음
  그러나 그 모든 방법은 각각의 작업에 맞춰 개별적으로 설계되어야 함
  일반화된 방식이야말로 더 확장 가능한 방향임
- 참고로 이런 종류의 교통 카메라는 이미 일반적으로 쓰이고 있음
  https://www.milesight.com/company/blog/types-of-traffic-cameras
나는 오랫동안 반복적인 수작업을 자동화하기 위해 "세상의 모든 것을 데이터베이스 객체로 만들자"는 방안에 집중했음
컴퓨터가 최소한의 인간 개입만으로 수많은 일을 할 수 있다고 봤음
머신러닝에도 많은 노력을 기울였음
그런데 사실 화면 버퍼 등 반구조화된 인간 세계 데이터를 그대로 이용해서 컴퓨터가 마우스와 키보드로 인간처럼 일하게 만들 수 있다는 생각은 못 했었음
물론 이런 아이디어를 전적으로 지지함
10년 내로 컴퓨터가 Chrome을 열고 영상통화에서 대화하며 일을 처리한 후 상대방이 전혀 컴퓨터임을 눈치채지 못하는 시대가 올 수도 있다고 봄
- AI가 '이론적으로 더 나은' 방법들보다 성공적인 이유는 근본적인 '사회적' 문제를 해결하기 때문임
  컴퓨팅 생태계는 협력적이기 보다는 경쟁적이고 방어적인 환경임
  대부분의 지루한 수작업을 자동화하지 못하도록 설계된 구조 자체가 인터넷에서 돈을 버는 핵심임
  사용자들이 자동화로 구매 유도나 광고 노출을 피할 수 있으면 수익이 떨어지기 때문임
- 로봇 공학에서도 비슷한 논쟁이 있었음
  "왜 굳이 로봇을 인간 형태로 만들어야 하나, 더 효율적인 형태가 가능하지 않나?"라는 의문이 많았음
  하지만 결국 도구가 대중적으로 채택되려면 비효율적이라도 인간 중심의 환경에 맞게 설계되어야 함
  성능 중심 어플리케이션은 커스텀 설계와 최적화가 필수지만, 대중적 확산을 위해선 인간에게 맞추는 방식이 필요함
- 아침에 데이팅 앱을 생각하다가 마지막 내용을 떠올렸음
  "내 chatgpt"가 나를 충분히 잘 대변한다면, 데이팅 앱에서 상대방의 chatgpt와 사전 미팅 같은 걸 해주는 식의 매칭이 가능하다고 봄
  최근 엔터프라이즈 키노트에서 "디지털 트윈" 이야기를 들었는데, 이게 그 개념에 해당하는 것 같음
  아직 이 부분에 대해 판단을 내리긴 이르지만 어디까지 발전할지 궁금함
- 컴퓨터가 직접 Chrome을 열고 영상 통화를 하며 사람처럼 과업을 처리해서 상대방이 컴퓨터인지 모르게 만드는 게 정말 괜찮은 결과라고 생각하는지 궁금함
  기술적으로는 엄청나고 인상적인 성취겠지만, 뭔가 찜찜한 느낌임
나는 Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)로 Gemini CLI에서 브라우저 자동화를 성공적으로 해봤음
그래서 이번 모델이 더 나은 성능을 보일 것 같다고 생각함
- MCP를 사용해서 어떤 자동화 작업들을 성공적으로 했는지 궁금함
- 이 방식은 컴퓨터 사용에 필요한 모델과는 아무런 관련이 없음
  MCP 서버에서 Google이 제공하는 사전 정의된 도구만 사용할 뿐, 어떤 소프트웨어에도 적용 가능한 범용 모델이 아님
혹시 UX보다 더 빠른 실제 사용 사례가 있는 사람 있으면 알려줬으면 함
어떻게 이걸 써야할지 잘 감이 오지 않음
많은 투자가 이루어지는 걸 보면 나만 모르는 뭔가가 분명 있는 것 같음
기술과 기능 자체는 인상적이지만, 구체적인 활용 예시가 궁금함
브라우저 봇이 오늘의 Wordle을 풀라고 하면, 글자 색(초록, 노란색, 회색) 피드백을 볼 수 없어서 답을 맞추지 못하는 상황이 발생함
단어는 입력할 수 있지만 피드백을 해석할 수 없다고 함
- 혹시 흑백 화면으로 웹서핑을 하는 건지 궁금함
Gemini가 https://www.google.com/recaptcha/api2/demo에서 captcha를 성공적으로 통과했음
- 포스트 수정함: 실제로는 내가 잘못 봤고, Google CAPTCHA 해결은 Gemini가 아니라 Browserbase에서 이루어진 것이었음
  자세한 내용은 여기에 정리함
- 자동화는 Browserbase에서 작동하는데, Browserbase가 captcha solver를 탑재하고 있음
  자동인지 사람인지 여부는 확실하지 않음
- 아마 Google 자체 네트워크의 IP에서 시도되었기 때문에 통과한 것일 수 있음
(Browserbase 데모만 사용해봄)
이론적으로 가능한 걸 아는 것과, 짧은 명령을 주면 실제로 사이트에 로그인하고 스크롤하며 글을 남기는 걸 직접 보는 건 전혀 다른 경험임
오늘 wordle에서 나도 두 번째 시도에서 똑같이 실수해서 비겼음
작업 중에 대화할 수 없다는 점이 좀 아쉬웠음
이런 기능은 반드시 엔터프라이즈 시스템에서는 governance를 위한 훅/콜백 같은 기능이 필요함
UI 기반 시스템에서 훅/에이전트 이벤트 처리가 훨씬 어려움
관련 링크는 claude code 훅 문서, google adk 콜백 문서 참고
- Claude Code가 얼마나 자주 훅을 무시하고 계산을 끝내고 결과를 활용하지 않는지 알고 있는데, '거버넌스'라는 개념이 거의 불가능하다고 봄
  LLM은 사람들이 생각하는 것보다 예측 불가능하며 통제가 훨씬 어려움
  테스트 실패로 "진행하지 마시오"라고 분명히 표시해도 아랑곳없이 진행하는 걸 봤음
  결국 유일하게 확실히 막을 수 있는 건 진짜 위험한 이론상 'claude-killing' 훅 뿐임
- 나는 Browserbase에서 아이덴티티 제품을 담당하고 있음
  최근 웹 전체에 RBAC(역할 기반 접근 제어)를 도입하는 방식에 대해 고민 중임
  콜백이 이 방식에 도움이 될지 궁금함
"OS 레벨 제어는 아직 최적화되지 않음"이라는 얘기를 보고 AGI가 아직 오지 않았다는 생각이 들었음
만약 이 수준의 OS 제어가 된다면, 그리고 LLM 사용 비용이 적당하다면 AGI에 가까운 무언가를 시작할 수 있다고 봄
- 흥미롭게도, 대부분의 사람들도 컴퓨터를 제대로 다루지 못함
  '지능'이란 개념 정의가 정말 불가능하다는 느낌임
- 왜 OS 전체 제어가 AGI(범용 인공지능) 단계로 나아가는 계기가 된다고 생각하는지 궁금함
아이러니하게 대부분의 테크 기업은 사용자가 쓸데없는 정보를 거치도록 강요해서 돈을 법
예를 들어 인터넷을 광고 없이 자유롭게 탐색할 수 있다면, 혹은 트위터에서 쓸모없는 알고리즘 없이 보고 싶은 콘텐츠만 볼 수 있다면, 누가 안 쓰겠음

답변달기

▲

ioas0316 3일전 [-]

지능이란 주체로 존재하는 통합인지시스템. 자아. 의식이 외부세계를 인지하고 소통하는 상호작용을 의미함. 그래서 통합시스템. os가 기본이 됨. 선택과 집중. 주의자체가 자유라는 주권으로 왜. 어떻게 라는 논리로 자기인식. 의식을 확장시키는것이 본질적배움, 성장임.
나라는 것이 세상과의 관계성. 연결성으로 이루어진다는것. 신이 왜 신인지 알았으면 벌써 다 알았다

답변달기