GN⁺: OpenAI, 에이전트 서비스 "Operator" 공개
(openai.com)- OpenAI가 새롭게 선보이는 Operator는 독립적으로 웹을 탐색하고 작업할 수 있는 AI 에이전트임
- 자체 브라우저를 사용하여 웹 페이지를 보고 입력, 클릭, 스크롤을 통해 상호 작용
- 연구 프리뷰 단계에 있어 아직 제한 사항이 있으며, 사용자 피드백을 통해 발전 예정임
- 독립적으로 작업을 수행할 수 있는 AI로, 사용자가 작업을 지시하면 이를 실행하는 최초의 에이전트 중 하나
- 반복적인 브라우저 작업(예: 양식 작성, 식료품 주문, 밈 만들기 등)을 처리하여 시간 절약을 도모함
- 미국 거주 Pro 사용자에게 우선 공개 중이며, 차후 Plus, Team, Enterprise 버전과 ChatGPT 내 통합 가능성 있음
Operator가 동작하는 방식
- 새로운 모델인 Computer-Using Agent(CUA)를 기반으로 함
- GPT-4o의 비전 기능과 강화학습 기반의 고도화된 추론 방식을 결합하여 GUI(버튼, 메뉴, 텍스트 필드 등) 상호작용을 가능하게 함
- 스크린샷을 통해 브라우저 화면을 ‘보고’, 마우스와 키보드로 조작하며 작업 수행 가능함
- 작업 중 오류나 난관에 부딪히면 자가 교정 추론을 활용하거나, 필요 시 사용자에게 조작을 넘기는 협업 방식을 택함
- WebArena, WebVoyager 등 브라우저 활용 벤치마크에서 높은 성능을 보여주고 있으며, 자세한 내용은 연구 블로그에서 확인 가능함
사용 방법
- 원하는 작업을 간단히 설명하면 Operator가 해당 작업을 자동으로 진행함
- 중간에 언제든지 사용자가 직접 브라우저 조작권을 가져올 수 있음
- 로그인, 결제 정보 입력, CAPTCHA 해결 등 민감 단계에서는 Operator가 직접 요청하지 않고 사용자가 직접 처리해야 함
- 사이트별 또는 전체 사이트에 대한 설정을 통해 사용자 취향이나 선호도 반영 가능함
- 즐겨 사용하는 프롬프트를 저장하여 자주 하는 작업(예: Instacart에서 식료품 재주문 등)을 빠르게 실행 가능함
- 여러 개의 탭처럼 여러 작업을 동시에 처리할 수 있으며, 대화 세션을 분리해 서로 다른 작업을 병행 가능함
에코시스템 및 사용자
- Operator는 AI를 단순 도구가 아닌 디지털 생태계의 능동 참여자로 발전시킴
- DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber 등과 협업하여 실제 사용자 니즈와 업계 표준을 반영 중임
- 공공 부문에서도 업무 효율과 접근성 향상을 위해 적용 가능성을 검토 중이며, 예로 City of Stockton과 시 행정 서비스 활용 방안을 모색하고 있음
- Instacart의 Chief Product Officer인 Daniel Danker는 Operator를 통한 손쉬운 주문 프로세스에 대해 긍정적인 평가를 언급함
안전 및 개인정보
- Operator는 안전성을 최우선으로 고려하여 세 가지 계층의 안전장치를 마련함
- 사용자 주도 제어: 민감 정보(로그인, 결제 등) 입력 시에는 Operator가 takeover를 요청하여 직접 정보를 입력하도록 유도함
- 중요 동작 전 확인: 주문 제출, 이메일 발송 같은 중요한 작업 전에는 사용자 승인 요청을 거침
- 작업 제한: 은행 업무나 취업 관련 결정과 같이 민감도가 높은 작업은 Operator가 거부하도록 학습됨
- 민감 사이트 접근 시에는 Watch 모드를 통해 사용자가 Operator의 동작을 직접 모니터링 가능함
- 데이터 프라이버시 관리 기능 제공
- ‘Improve the model for everyone’를 비활성화하면 Operator 데이터도 모델 학습에 사용되지 않음
- 설정 내 Privacy 섹션에서 브라우징 데이터 삭제, 모든 사이트 로그아웃, 대화 기록 삭제 등을 간편하게 수행 가능함
- 악의적인 웹사이트로부터 Operator를 보호하기 위한 방어체계도 적용됨
- 숨겨진 프롬프트나 악성 코드, 피싱 시도를 감지하고 무시하도록 설계함
- 전담 모니터 모델이 수상한 동작을 실시간 감시하여 필요 시 작업을 중단시킴
- 자동화 및 인적 검토로 새로운 위협을 발견 시 빠르게 안전장치를 업데이트함
- 유해한 목적으로 기술이 오남용되지 않도록 Operator는 특정 요청을 거부하고, 정책 위반이 반복되면 경고나 접근 차단이 적용될 수 있음
- 아직 연구 프리뷰 단계인 만큼 완벽하지 않으며, 현실 사용 피드백을 통해 계속 개선 예정임
한계점
- Operator는 현재 초기 단계이며, 슬라이드쇼 제작이나 캘린더 관리 등 복잡한 인터페이스 작업에 어려움을 겪을 수 있음
- 사용자 피드백은 정확도, 안정성, 안전성 개선을 위한 중요한 자원으로 활용 예정임
향후 계획
- CUA의 API 제공 예정으로, 개발자들이 자체 에이전트를 구축할 수 있는 기반을 마련할 계획임
- 긴 작업 및 복잡한 워크플로우 처리 능력을 강화하여 Operator 기능 고도화 예정임
- Pro 사용자 외 Plus, Team, Enterprise 등으로 점차 확대하고, 장기적으로는 ChatGPT에 기능을 통합하여 실시간·비동기적 작업 실행을 지원할 계획임
Hacker News 의견
-
많은 사람들이 OpenAI와 같은 회사들이 개인 비서를 제공하기 위해 돈을 쓰는 것이 아니라, 나중에 인건비를 절감하기 위해 AI를 훈련시키고 있다고 생각함
- AI가 개인 비서로 유용해질 때쯤, 그 기능은 평균적인 사람이 감당할 수 없는 가격으로 출시될 것임
-
OpenAI Operator의 출시에 대한 의견은 혼재되어 있음
- 현재 기능, 비용, 잠재적 과잉 확장에 대한 회의적인 시각도 있지만, 작업 자동화와 시간에 따른 개선 가능성에 대한 긍정적인 시각도 존재함
- 윤리적 문제, 개인정보 보호, 산업에 미치는 영향도 논의됨
- 전반적으로 도전과 잠재적 개선을 인정하면서도 신중한 낙관론이 존재함
-
Operator는 몇 달 전 Claude의 Computer Use 데모와 유사하며, VM을 실행해야 하는 아키텍처와 부정확한 경향이 있음
- Claude의 Computer Use 구현은 발표 이후 AI 에이전트 산업에서 큰 반향을 일으키지 못했음
-
Operator의 안전 위험과 완화에 대한 슬라이드에서 "사용자가 잘못 정렬됨"이라는 표현이 있음
- OpenAI가 사용자를 "잘못 정렬됨"으로 간주하는 예시를 더 보고 싶다는 의견이 있음
-
밈을 만드는 것과 같은 작업에 500억 달러를 투자하는 것에 대한 비판적인 의견이 있음
- 지구를 다음 세대에게 살기 좋은 곳으로 만드는 것에 투자하지 않는 것에 대한 아쉬움이 표현됨
-
CogAgent: 중국의 오픈 소스 대안임
- 논문, 코드, 모델에 대한 링크가 제공됨
-
미래에 제품과 모델이 상당히 개선되면, ChatGPT와 대화하여 저녁 예약, 항공편 예약, 식료품 구매 등 웹에서 하는 지루한 일을 처리할 수 있을 것이라는 기대가 있음
- 이러한 기능을 매우 기대함
-
Instacart나 Doordash 같은 회사들이 LLM을 위한 마케팅 최적화를 통해 새로운 UI 방향을 열 수 있을 것이라는 의견이 있음
- 예를 들어, 영양가 있는 달걀을 찾으라는 지시를 받으면, 에이전트가 영양 성분표를 참조하여 결정을 내릴 수 있음
-
"에이전트"가 마우스와 키보드를 사용하여 픽셀을 보는 방식이 어색하다는 의견이 있음
- 앱과 서비스가 사용자 대신 수행할 수 있는 사전 승인된 작업 세트를 노출하는 표준을 상상함
- 사용자 권한을 추가/철회할 수 있는 기능을 제공하는 "앱 스토어" 개념을 제안함
-
에이전트를 위한 Open APIs 사용이 필요하다고 강하게 믿음
- OpenAPI가 에이전트를 위한 개방형 세계와 인터넷을 가능하게 하는 완벽한 사양 표준이라고 주장함
- OpenAI가 처음 GPT를 출시했을 때는 Open APIs에 기반했으나, 점점 더 멀어지고 있음
- 이는 시장을 통제하려는 의도로 보이며, 개방형 표준에 기반하지 않으려는 것임
- 이는 매우 아쉬운 일임