# OpenAI, 에이전트 서비스 "Operator" 공개

> Clean Markdown view of GeekNews topic #18886. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18886](https://news.hada.io/topic?id=18886)
- GeekNews Markdown: [https://news.hada.io/topic/18886.md](https://news.hada.io/topic/18886.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-24T12:34:16+09:00
- Updated: 2025-01-24T12:34:16+09:00
- Original source: [openai.com](https://openai.com/index/introducing-operator/)
- Points: 6
- Comments: 1

## Summary

OpenAI가 공개한 Operator는 독립적으로 웹을 탐색하고 작업을 수행할 수 있는 AI 에이전트로, 반복적인 브라우저 작업을 처리하여 시간을 절약할 수 있습니다. Operator는 새로운 Computer-Using Agent(CUA) 모델을 기반으로 하며, 사용자 피드백을 통해 발전할 예정입니다. 현재 연구 프리뷰 단계로, 미국 거주 Pro 사용자에게 우선 공개되며, 향후 Plus, Team, Enterprise 버전 및 ChatGPT와의 통합 가능성을 검토 중입니다.

## Topic Body

- OpenAI가 새롭게 선보이는 Operator는 독립적으로 웹을 탐색하고 작업할 수 있는 AI 에이전트임  
  - 자체 브라우저를 사용하여 웹 페이지를 보고 입력, 클릭, 스크롤을 통해 상호 작용  
- 연구 프리뷰 단계에 있어 아직 제한 사항이 있으며, 사용자 피드백을 통해 발전 예정임  
- 독립적으로 작업을 수행할 수 있는 AI로, 사용자가 작업을 지시하면 이를 실행하는 최초의 에이전트 중 하나  
- 반복적인 브라우저 작업(예: 양식 작성, 식료품 주문, 밈 만들기 등)을 처리하여 시간 절약을 도모함  
- 미국 거주 Pro 사용자에게 우선 공개 중이며, 차후 Plus, Team, Enterprise 버전과 ChatGPT 내 통합 가능성 있음  
  
### Operator가 동작하는 방식  
- 새로운 모델인 Computer-Using Agent(CUA)를 기반으로 함  
- GPT-4o의 비전 기능과 강화학습 기반의 고도화된 추론 방식을 결합하여 GUI(버튼, 메뉴, 텍스트 필드 등) 상호작용을 가능하게 함  
- 스크린샷을 통해 브라우저 화면을 ‘보고’, 마우스와 키보드로 조작하며 작업 수행 가능함  
- 작업 중 오류나 난관에 부딪히면 자가 교정 추론을 활용하거나, 필요 시 사용자에게 조작을 넘기는 협업 방식을 택함  
- WebArena, WebVoyager 등 브라우저 활용 벤치마크에서 높은 성능을 보여주고 있으며, 자세한 내용은 연구 블로그에서 확인 가능함  
  
### 사용 방법  
- 원하는 작업을 간단히 설명하면 Operator가 해당 작업을 자동으로 진행함  
- 중간에 언제든지 사용자가 직접 브라우저 조작권을 가져올 수 있음  
- 로그인, 결제 정보 입력, CAPTCHA 해결 등 민감 단계에서는 Operator가 직접 요청하지 않고 사용자가 직접 처리해야 함  
- 사이트별 또는 전체 사이트에 대한 설정을 통해 사용자 취향이나 선호도 반영 가능함  
- 즐겨 사용하는 프롬프트를 저장하여 자주 하는 작업(예: Instacart에서 식료품 재주문 등)을 빠르게 실행 가능함  
- 여러 개의 탭처럼 여러 작업을 동시에 처리할 수 있으며, 대화 세션을 분리해 서로 다른 작업을 병행 가능함  
  
### 에코시스템 및 사용자  
- Operator는 AI를 단순 도구가 아닌 디지털 생태계의 능동 참여자로 발전시킴  
- DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber 등과 협업하여 실제 사용자 니즈와 업계 표준을 반영 중임  
- 공공 부문에서도 업무 효율과 접근성 향상을 위해 적용 가능성을 검토 중이며, 예로 City of Stockton과 시 행정 서비스 활용 방안을 모색하고 있음  
- Instacart의 Chief Product Officer인 Daniel Danker는 Operator를 통한 손쉬운 주문 프로세스에 대해 긍정적인 평가를 언급함  
  
### 안전 및 개인정보  
- Operator는 안전성을 최우선으로 고려하여 세 가지 계층의 안전장치를 마련함  
  - 사용자 주도 제어: 민감 정보(로그인, 결제 등) 입력 시에는 Operator가 takeover를 요청하여 직접 정보를 입력하도록 유도함  
  - 중요 동작 전 확인: 주문 제출, 이메일 발송 같은 중요한 작업 전에는 사용자 승인 요청을 거침  
  - 작업 제한: 은행 업무나 취업 관련 결정과 같이 민감도가 높은 작업은 Operator가 거부하도록 학습됨  
  - 민감 사이트 접근 시에는 Watch 모드를 통해 사용자가 Operator의 동작을 직접 모니터링 가능함  
- 데이터 프라이버시 관리 기능 제공  
  - ‘Improve the model for everyone’를 비활성화하면 Operator 데이터도 모델 학습에 사용되지 않음  
  - 설정 내 Privacy 섹션에서 브라우징 데이터 삭제, 모든 사이트 로그아웃, 대화 기록 삭제 등을 간편하게 수행 가능함  
- 악의적인 웹사이트로부터 Operator를 보호하기 위한 방어체계도 적용됨  
  - 숨겨진 프롬프트나 악성 코드, 피싱 시도를 감지하고 무시하도록 설계함  
  - 전담 모니터 모델이 수상한 동작을 실시간 감시하여 필요 시 작업을 중단시킴  
  - 자동화 및 인적 검토로 새로운 위협을 발견 시 빠르게 안전장치를 업데이트함  
- 유해한 목적으로 기술이 오남용되지 않도록 Operator는 특정 요청을 거부하고, 정책 위반이 반복되면 경고나 접근 차단이 적용될 수 있음  
- 아직 연구 프리뷰 단계인 만큼 완벽하지 않으며, 현실 사용 피드백을 통해 계속 개선 예정임  
  
### 한계점  
- Operator는 현재 초기 단계이며, 슬라이드쇼 제작이나 캘린더 관리 등 복잡한 인터페이스 작업에 어려움을 겪을 수 있음  
- 사용자 피드백은 정확도, 안정성, 안전성 개선을 위한 중요한 자원으로 활용 예정임  
  
### 향후 계획  
- CUA의 API 제공 예정으로, 개발자들이 자체 에이전트를 구축할 수 있는 기반을 마련할 계획임  
- 긴 작업 및 복잡한 워크플로우 처리 능력을 강화하여 Operator 기능 고도화 예정임  
- Pro 사용자 외 Plus, Team, Enterprise 등으로 점차 확대하고, 장기적으로는 ChatGPT에 기능을 통합하여 실시간·비동기적 작업 실행을 지원할 계획임

## Comments



### Comment 33810

- Author: neo
- Created: 2025-01-24T12:34:17+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42806301) 
- 많은 사람들이 OpenAI와 같은 회사들이 개인 비서를 제공하기 위해 돈을 쓰는 것이 아니라, 나중에 인건비를 절감하기 위해 AI를 훈련시키고 있다고 생각함
  - AI가 개인 비서로 유용해질 때쯤, 그 기능은 평균적인 사람이 감당할 수 없는 가격으로 출시될 것임

- OpenAI Operator의 출시에 대한 의견은 혼재되어 있음
  - 현재 기능, 비용, 잠재적 과잉 확장에 대한 회의적인 시각도 있지만, 작업 자동화와 시간에 따른 개선 가능성에 대한 긍정적인 시각도 존재함
  - 윤리적 문제, 개인정보 보호, 산업에 미치는 영향도 논의됨
  - 전반적으로 도전과 잠재적 개선을 인정하면서도 신중한 낙관론이 존재함

- Operator는 몇 달 전 Claude의 Computer Use 데모와 유사하며, VM을 실행해야 하는 아키텍처와 부정확한 경향이 있음
  - Claude의 Computer Use 구현은 발표 이후 AI 에이전트 산업에서 큰 반향을 일으키지 못했음

- Operator의 안전 위험과 완화에 대한 슬라이드에서 "사용자가 잘못 정렬됨"이라는 표현이 있음
  - OpenAI가 사용자를 "잘못 정렬됨"으로 간주하는 예시를 더 보고 싶다는 의견이 있음

- 밈을 만드는 것과 같은 작업에 500억 달러를 투자하는 것에 대한 비판적인 의견이 있음
  - 지구를 다음 세대에게 살기 좋은 곳으로 만드는 것에 투자하지 않는 것에 대한 아쉬움이 표현됨

- CogAgent: 중국의 오픈 소스 대안임
  - 논문, 코드, 모델에 대한 링크가 제공됨

- 미래에 제품과 모델이 상당히 개선되면, ChatGPT와 대화하여 저녁 예약, 항공편 예약, 식료품 구매 등 웹에서 하는 지루한 일을 처리할 수 있을 것이라는 기대가 있음
  - 이러한 기능을 매우 기대함

- Instacart나 Doordash 같은 회사들이 LLM을 위한 마케팅 최적화를 통해 새로운 UI 방향을 열 수 있을 것이라는 의견이 있음
  - 예를 들어, 영양가 있는 달걀을 찾으라는 지시를 받으면, 에이전트가 영양 성분표를 참조하여 결정을 내릴 수 있음

- "에이전트"가 마우스와 키보드를 사용하여 픽셀을 보는 방식이 어색하다는 의견이 있음
  - 앱과 서비스가 사용자 대신 수행할 수 있는 사전 승인된 작업 세트를 노출하는 표준을 상상함
  - 사용자 권한을 추가/철회할 수 있는 기능을 제공하는 "앱 스토어" 개념을 제안함

- 에이전트를 위한 Open APIs 사용이 필요하다고 강하게 믿음
  - OpenAPI가 에이전트를 위한 개방형 세계와 인터넷을 가능하게 하는 완벽한 사양 표준이라고 주장함
  - OpenAI가 처음 GPT를 출시했을 때는 Open APIs에 기반했으나, 점점 더 멀어지고 있음
  - 이는 시장을 통제하려는 의도로 보이며, 개방형 표준에 기반하지 않으려는 것임
  - 이는 매우 아쉬운 일임
