6P by neo 5일전 | ★ favorite | 댓글 1개
  • OpenAI가 새롭게 선보이는 Operator는 독립적으로 웹을 탐색하고 작업할 수 있는 AI 에이전트임
    • 자체 브라우저를 사용하여 웹 페이지를 보고 입력, 클릭, 스크롤을 통해 상호 작용
  • 연구 프리뷰 단계에 있어 아직 제한 사항이 있으며, 사용자 피드백을 통해 발전 예정임
  • 독립적으로 작업을 수행할 수 있는 AI로, 사용자가 작업을 지시하면 이를 실행하는 최초의 에이전트 중 하나
  • 반복적인 브라우저 작업(예: 양식 작성, 식료품 주문, 밈 만들기 등)을 처리하여 시간 절약을 도모함
  • 미국 거주 Pro 사용자에게 우선 공개 중이며, 차후 Plus, Team, Enterprise 버전과 ChatGPT 내 통합 가능성 있음

Operator가 동작하는 방식

  • 새로운 모델인 Computer-Using Agent(CUA)를 기반으로 함
  • GPT-4o의 비전 기능과 강화학습 기반의 고도화된 추론 방식을 결합하여 GUI(버튼, 메뉴, 텍스트 필드 등) 상호작용을 가능하게 함
  • 스크린샷을 통해 브라우저 화면을 ‘보고’, 마우스와 키보드로 조작하며 작업 수행 가능함
  • 작업 중 오류나 난관에 부딪히면 자가 교정 추론을 활용하거나, 필요 시 사용자에게 조작을 넘기는 협업 방식을 택함
  • WebArena, WebVoyager 등 브라우저 활용 벤치마크에서 높은 성능을 보여주고 있으며, 자세한 내용은 연구 블로그에서 확인 가능함

사용 방법

  • 원하는 작업을 간단히 설명하면 Operator가 해당 작업을 자동으로 진행함
  • 중간에 언제든지 사용자가 직접 브라우저 조작권을 가져올 수 있음
  • 로그인, 결제 정보 입력, CAPTCHA 해결 등 민감 단계에서는 Operator가 직접 요청하지 않고 사용자가 직접 처리해야 함
  • 사이트별 또는 전체 사이트에 대한 설정을 통해 사용자 취향이나 선호도 반영 가능함
  • 즐겨 사용하는 프롬프트를 저장하여 자주 하는 작업(예: Instacart에서 식료품 재주문 등)을 빠르게 실행 가능함
  • 여러 개의 탭처럼 여러 작업을 동시에 처리할 수 있으며, 대화 세션을 분리해 서로 다른 작업을 병행 가능함

에코시스템 및 사용자

  • Operator는 AI를 단순 도구가 아닌 디지털 생태계의 능동 참여자로 발전시킴
  • DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber 등과 협업하여 실제 사용자 니즈와 업계 표준을 반영 중임
  • 공공 부문에서도 업무 효율과 접근성 향상을 위해 적용 가능성을 검토 중이며, 예로 City of Stockton과 시 행정 서비스 활용 방안을 모색하고 있음
  • Instacart의 Chief Product Officer인 Daniel Danker는 Operator를 통한 손쉬운 주문 프로세스에 대해 긍정적인 평가를 언급함

안전 및 개인정보

  • Operator는 안전성을 최우선으로 고려하여 세 가지 계층의 안전장치를 마련함
    • 사용자 주도 제어: 민감 정보(로그인, 결제 등) 입력 시에는 Operator가 takeover를 요청하여 직접 정보를 입력하도록 유도함
    • 중요 동작 전 확인: 주문 제출, 이메일 발송 같은 중요한 작업 전에는 사용자 승인 요청을 거침
    • 작업 제한: 은행 업무나 취업 관련 결정과 같이 민감도가 높은 작업은 Operator가 거부하도록 학습됨
    • 민감 사이트 접근 시에는 Watch 모드를 통해 사용자가 Operator의 동작을 직접 모니터링 가능함
  • 데이터 프라이버시 관리 기능 제공
    • ‘Improve the model for everyone’를 비활성화하면 Operator 데이터도 모델 학습에 사용되지 않음
    • 설정 내 Privacy 섹션에서 브라우징 데이터 삭제, 모든 사이트 로그아웃, 대화 기록 삭제 등을 간편하게 수행 가능함
  • 악의적인 웹사이트로부터 Operator를 보호하기 위한 방어체계도 적용됨
    • 숨겨진 프롬프트나 악성 코드, 피싱 시도를 감지하고 무시하도록 설계함
    • 전담 모니터 모델이 수상한 동작을 실시간 감시하여 필요 시 작업을 중단시킴
    • 자동화 및 인적 검토로 새로운 위협을 발견 시 빠르게 안전장치를 업데이트함
  • 유해한 목적으로 기술이 오남용되지 않도록 Operator는 특정 요청을 거부하고, 정책 위반이 반복되면 경고나 접근 차단이 적용될 수 있음
  • 아직 연구 프리뷰 단계인 만큼 완벽하지 않으며, 현실 사용 피드백을 통해 계속 개선 예정임

한계점

  • Operator는 현재 초기 단계이며, 슬라이드쇼 제작이나 캘린더 관리 등 복잡한 인터페이스 작업에 어려움을 겪을 수 있음
  • 사용자 피드백은 정확도, 안정성, 안전성 개선을 위한 중요한 자원으로 활용 예정임

향후 계획

  • CUA의 API 제공 예정으로, 개발자들이 자체 에이전트를 구축할 수 있는 기반을 마련할 계획임
  • 긴 작업 및 복잡한 워크플로우 처리 능력을 강화하여 Operator 기능 고도화 예정임
  • Pro 사용자 외 Plus, Team, Enterprise 등으로 점차 확대하고, 장기적으로는 ChatGPT에 기능을 통합하여 실시간·비동기적 작업 실행을 지원할 계획임
Hacker News 의견
  • 많은 사람들이 OpenAI와 같은 회사들이 개인 비서를 제공하기 위해 돈을 쓰는 것이 아니라, 나중에 인건비를 절감하기 위해 AI를 훈련시키고 있다고 생각함

    • AI가 개인 비서로 유용해질 때쯤, 그 기능은 평균적인 사람이 감당할 수 없는 가격으로 출시될 것임
  • OpenAI Operator의 출시에 대한 의견은 혼재되어 있음

    • 현재 기능, 비용, 잠재적 과잉 확장에 대한 회의적인 시각도 있지만, 작업 자동화와 시간에 따른 개선 가능성에 대한 긍정적인 시각도 존재함
    • 윤리적 문제, 개인정보 보호, 산업에 미치는 영향도 논의됨
    • 전반적으로 도전과 잠재적 개선을 인정하면서도 신중한 낙관론이 존재함
  • Operator는 몇 달 전 Claude의 Computer Use 데모와 유사하며, VM을 실행해야 하는 아키텍처와 부정확한 경향이 있음

    • Claude의 Computer Use 구현은 발표 이후 AI 에이전트 산업에서 큰 반향을 일으키지 못했음
  • Operator의 안전 위험과 완화에 대한 슬라이드에서 "사용자가 잘못 정렬됨"이라는 표현이 있음

    • OpenAI가 사용자를 "잘못 정렬됨"으로 간주하는 예시를 더 보고 싶다는 의견이 있음
  • 밈을 만드는 것과 같은 작업에 500억 달러를 투자하는 것에 대한 비판적인 의견이 있음

    • 지구를 다음 세대에게 살기 좋은 곳으로 만드는 것에 투자하지 않는 것에 대한 아쉬움이 표현됨
  • CogAgent: 중국의 오픈 소스 대안임

    • 논문, 코드, 모델에 대한 링크가 제공됨
  • 미래에 제품과 모델이 상당히 개선되면, ChatGPT와 대화하여 저녁 예약, 항공편 예약, 식료품 구매 등 웹에서 하는 지루한 일을 처리할 수 있을 것이라는 기대가 있음

    • 이러한 기능을 매우 기대함
  • Instacart나 Doordash 같은 회사들이 LLM을 위한 마케팅 최적화를 통해 새로운 UI 방향을 열 수 있을 것이라는 의견이 있음

    • 예를 들어, 영양가 있는 달걀을 찾으라는 지시를 받으면, 에이전트가 영양 성분표를 참조하여 결정을 내릴 수 있음
  • "에이전트"가 마우스와 키보드를 사용하여 픽셀을 보는 방식이 어색하다는 의견이 있음

    • 앱과 서비스가 사용자 대신 수행할 수 있는 사전 승인된 작업 세트를 노출하는 표준을 상상함
    • 사용자 권한을 추가/철회할 수 있는 기능을 제공하는 "앱 스토어" 개념을 제안함
  • 에이전트를 위한 Open APIs 사용이 필요하다고 강하게 믿음

    • OpenAPI가 에이전트를 위한 개방형 세계와 인터넷을 가능하게 하는 완벽한 사양 표준이라고 주장함
    • OpenAI가 처음 GPT를 출시했을 때는 Open APIs에 기반했으나, 점점 더 멀어지고 있음
    • 이는 시장을 통제하려는 의도로 보이며, 개방형 표준에 기반하지 않으려는 것임
    • 이는 매우 아쉬운 일임