ChatGPT 에이전트, 리서치와 액션을 연결합니다
(openai.com)- ChatGPT 에이전트는 자체 가상 컴퓨터를 활용해 유저의 복잡한 작업을 처음부터 끝까지 처리함
- Operator의 웹사이트 상호작용력과 심층 리서치의 정보 분석 성능이 결합된 새로운 에이전틱 시스템을 구성하여 클릭·입력·코드 실행까지 유연하게 수행
- 사용자는 에이전트가 양식 제출, 예약, 파일 생성 등의 작업을 대신 수행하도록 지시할 수 있으며, 언제든지 개입 가능함
- SpreadsheetBench, DSBench, BrowseComp 등 다양한 실제 벤치마크에서 기존 모델 대비 우수한 성과를 입증
- Pro, Plus, Team 사용자는 오늘부터 사용 가능하며, 사용자 데이터 제어 및 보안 기능도 철저히 설계되었음
ChatGPT 에이전트, 리서치와 액션을 연결합니다
에이전트 기능의 도입
- ChatGPT가 자체 가상 컴퓨터를 통해 사용자를 대신해 복잡한 작업을 수행할 수 있도록 기능이 확장됨
- ChatGPT 에이전트는 Operator(원격 브라우저 기반 상호작용)와 심층 리서치(다단계 웹 추론 도구)의 분석 능력을 하나의 에이전트 모델로 통합
- Operator는 웹 상의 조작(스크롤링, 클릭, 폼입력)에 강점 있으나, 심층적인 분석이나 보고서 작성에는 한계가 있었음
- 반면 심층 리서치는 분석과 요약에 특화됐지만, 실시간 사이트 상호작용이나 인증 콘텐츠 접근은 불가함
- 두 도구의 보완적 장점을 통합해 클릭, 필터, 데이터 수집까지 단일 환경에서 높은 효율성 제공함
- 챗 인터페이스 내에서 대화와 요청 간에 유연하게 전환 가능함
- 예시:
- “경쟁사 세 곳 분석하고 슬라이드쇼를 만들어줘”
- “최근 뉴스 기반으로 다음 미팅 정리해줘”
동작 방식과 상호작용
- ChatGPT 에이전트는 GUI 기반 비주얼 브라우저, 텍스트 기반 브라우저, 직접 API 연결 등 다양한 웹 접근 도구 탑재
- 시스템이 작업 실행 시 브라우저, API, 텍스트 추론 등 가장 효율적인 도구를 상황에 맞게 조합하여 최적의 경로를 동적으로 선택
- 웹사이트 클릭, 필터링, 로그인 안내, 코드 실행, 결과 요약, 슬라이드 생성 등 엔드투엔드 작업 수행
-
사용자는 작업 중 언제든 개입 가능하며, 브라우저 조종을 직접 넘겨받을 수 있음
- 언제든 지침 추가, 작업 방향 전환, 중지 및 현재 결과 요청 등의 개입 가능
- 진행 중이던 작업은 언제라도 중단 후 재시작이 가능하고, 컨텍스트 공유로 일관성 유지
- 불확실할 경우 ChatGPT가 적극적으로 추가 정보를 요청
- 사용자 로그인 인증 절차를 통해 기업 또는 개인 데이터도 안전하게 접근 가능함
탁월한 성과와 활용 사례
- 권위 있는 벤치마크에서 기존 모델 대비 뛰어난 점수 획득
- Humanity’s Last Exam: 전문가 수준 질문에서 43.1점 기록
- DSBench: 데이터 과학 작업에서 기존 모델보다 압도적 우위
-
SpreadsheetBench:
-
.xlsx
스프레드시트 직접 편집에서 45.5% 기록, GPT‑4o(13.38%), Excel Copilot(20%)을 크게 상회
-
- WebArena: 실제 웹 상호작용 작업에서도 이전 Operator 모델을 능가
- BrowseComp: 찾기 어려운 웹 정보 수집 능력에서 68.9점으로 최고 기록
- 투자 은행 분석가 작업, 복잡한 데이터 분석에서도 이전 도구보다 정확하고 폭넓은 결과 산출함
- 실업무 및 일상 자동화에 높은 활용성 제공
- 업무:
- 프레젠테이션 자동 생성
- 미팅 일정 조정
- 재무 데이터 기반 스프레드시트 업데이트
- 일상:
- 여행 일정 계획 및 예약
- 이벤트 기획 및 전문가 상담 연결
- 업무:
활성화, 사용 사례, 한계
- ‘에이전트 모드’ 선택 후, 어떤 작업이든 한국어/영어로 설명만 입력하면 자동수행 시작됨
- 과정 내 화면 내레이션 제공, 필요시 수동 제어 가능
- 반복적 업무 자동 예약, 월간 작업 횟수 제한 등 유연한 크레딧 시스템 도입
- 기존 Operator/심층 리서치 사용자는 30일 미만 임시 사용 후 에이전트로 통합 전환됨
- 슬라이드쇼 생성 등 일부 신기능은 베타 상태로, 출력 품질과 완성도는 추후 개선 예정임
안전성, 개인정보 보호, 악성 행위 방지
- 실세계를 변화시키는 직무에 앞서 반드시 명의적 사용자 확인 및 행동 허가 요청함
- 적극적 감독을 필요로 하는 민감 업무에는 단계별 승인이 요구되며, 위험도 높은 거래 및 법적 상호작용은 거부함
- 프롬프트 인젝션 등 제3자 악성 공격에 대한 감지·방어체계를 설계, 명확하지 않은 경우 위험 안내와 옵션 제시, 사용자 최종 확인 후 작동함
- 오남용 방지를 위해 기존 ChatGPT 안전 정책을 심화 적용하며, OpenAI의 사용 약관과 정책이 강제 적용됨
- 개인정보 보호 강화를 위해 원격 브라우저 데이터는 자체 서버에 저장하지 않음
- 사용자 브라우징 데이터 및 세션 제어권은 전적으로 사용자에 귀속되어 즉시 삭제 또는 로그아웃 진행 가능함
- 직접 조종 모드에서는 ChatGPT가 개인 입력 정보를 볼 수 없음
에이전트 배포·정책 및 이용 안내
- Pro, Plus, Team 구독자는 즉시 이용 가능하며, 기업/교육 사용자에겐 7월 중 확대 예정임
- Pro는 거의 무제한, 그 외 요금제는 월 50회 + 추가 크레딧 산정 시스템 사용 가능
- 각 사용자 워크플로와 커넥터를 연동해 읽기 전용 정보 요약, 일정 분석 등 다양하게 활용 가능
- Operator 리서치 프리뷰는 30일 후 종료, 심층 리서치는 필요시 별도 활성화 가능
- ChatGPT 에이전트는 지속적 개선 중이며, 심층적이고 유연한 워크플로 지능/출력 품질이 점진적으로 향상될 예정임
슬라이드쇼 기능 및 향후 방향
- 슬라이드쇼 생성은 현재 베타 단계로, 기존 문서 불포함 시 완성도 및 형식이 미흡할 수 있음
- 텍스트, 차트, 이미지 등의 요소를 손쉽게 편집 가능한 벡터로 구성해 구조화와 유연성을 강화함
- 업로드 기능은 스프레드시트에 적용 가능하지만, 슬라이드쇼에선 추후 제공 예정임
- 향후 더욱 다양한 기능과 형식, 정제된 출력 지원으로 자동화 능력 향상이 기대됨
기타 성능 비교 및 기준
모델 | 셀 기준 | 시트 기준 | 전체 점수 |
---|---|---|---|
GPT‑4o | 15.86% | 18.33% | 16.81% |
OpenAI o3 | 22.40% | 24.60% | 23.25% |
ChatGPT 에이전트 | 38.27% | 30.48% | 35.27% |
ChatGPT (.xlsx) | 50.56% | 37.51% | 45.54% |
인간 | 75.56% | 65.00% | 71.33% |
- 성능 벤치마크 표 기준, ChatGPT 에이전트의 .xlsx 환경 처리 및 LibreOffice 평가에서 인간 점수에는 미치지 못하지만, AI 모델 중에서는 압도적으로 높은 수준임
- 평가 환경 차이로 일부 수치 편차가 있을 수 있으며, 전체 스프레드시트 평가 문항(912개)에서 종합 능력을 입증함
Hacker News 의견
-
"스프레드시트" 예시 영상이 재밌다고 생각함. 보통 복잡하고 데이터가 많은 리포트를 만드는데 4~8시간이 걸린다고 하는데, 이제는 에이전트에게 요청하고 산책하고 오면 데이터를 받아볼 수 있다고 말함. 98%는 정확히 반영됐고, 몇 개만 복사/붙여넣기 하면 된다고 함. 시간의 90~95%를 절약해준다고 생각함. 하지만 그 2%의 오류를 찾아내는 데 진짜 시간이 들 수 있다고 느껴짐. 특히 복잡한 작업이나 돈이 걸린 일에선 "거의 맞음"이 큰 골칫거리가 될 수 있음. 그 2%의 미묘한 오류가 여러 단계 중에 숨어 있으면 정말 문제라고 생각함
- 이 경우야말로 AI에 대한 과도한 기대의 덫에 빠지는 예라고 생각함. 데이터 수집과 검증을 자동화하는 것이 좋은 활용법이라고 봄. AI가 모든 일을 대신 하는 쪽으로 과도하게 생각하고 있음. 98% 맞았다는 말에서 스프레드시트 경험자라면 경계해야 함. 어떤 2%가 틀렸는지 직접 다 검토하기 전엔 알기 어렵기 때문임. 코드도 마찬가지로, AI 도움을 적절히 활용하고 스스로 검토하는 사람이 결과가 더 좋음. 반면, 프롬프트만 반복해 테스트 통과만 시키고 바로 PR 제출하는 방식은 심각한 문제를 일으킨다고 생각함
- AI 세상에서 그 2%를 미미하게 여기는 사고 자체가 집단 최면 같음. 예를 들어 '버튼 누르기: 1달러, 어떤 버튼인가 알기: 9,999달러'라는 비유처럼, 이 2% 수정이 실제로는 엄청난 가치를 지닐 수 있다고 생각함. 찾는 데도 나머지 98%만큼 시간 들어감
- 이런 현상에선 파레토 법칙이 작동한다고 봄. 인접 분야인 자율주행차도 마지막 20% 완성을 수년째 못 넘기고 있음. 한때는 자율주행이 모든 논쟁의 중심이었는데, 이제 거의 아무도 이야기하지 않는 게 신기하게 느껴짐
- LLM으로 정밀함이 필요한 일에 썼을 때 똑같이 겪는 문제임. 여러 단계를 거치는 데이터 파이프라인처럼, 겉으론 완벽해 보여도 막상 실제 데이터를 검증하면 뭔가 어긋남. 이때 지나치게 긴 코드를 파고들며 사소하지만 중요한 문제점 몇 개를 찾는 데 결국 처음부터 직접 짜는 것만큼 시간과 노력이 들어감
-
보안 위협이 정말 무섭게 느껴짐. 예를 들어 이메일과 캘린더 접근 권한을 주면 내 모든 비밀을 알 수 있게 됨. 기사에서도 프롬프트 인젝션 위험을 인정하고 있음. 악성 웹페이지에서 보이지 않는 요소나 메타데이터에 프롬프트를 숨겨놓고, 에이전트가 그걸 감지 못하면 공격자에게 개인 데이터가 유출될 수 있음. 악성 웹사이트가 내 비밀을 빼낼 수 있다고 봄. 한 가지 궁금한 건, 기사에선 중요한 행동에 앞서 꼭 사용자 확인을 받는다고 하는데, 도대체 AI가 어떻게 '중요한 행동'을 판단하는지 궁금함. 실수로 사용자 확인 없이 결제하는 일도 일어날 수 있지 않을까 하는 걱정이 있음
- 캘린더 초대 프롬프트 인젝션 공격은 거의 확실히 나올 거라고 생각함. 캘린더 초대는 이미 수많은 자동 생성 문장이 포함되고 아무도 다 읽지 않으니, 공격 코드를 슬쩍 넣기 정말 쉬움. 그러면 피해자의 캘린더와 기타 개인 데이터도 통째로 뺏길 수 있음
- IT에서 이미 프라이빗-퍼블릭으로 컴퓨팅을 구분하는 사람이 많은데, 앞으로는 그 중간 단계가 필요하다고 느낌. 예를 들어 민감하지 않은 익명화된 캘린더, 걱정 없는 일기, 연구노트 등 중간 위험 데이터로 나누는 방법도 검토해야 함. 나는 ChatGPT로 메디컬이나 민감한 상담 같은 건 하지 않음. 활용하는 사람 많단 이야기 듣지만 아직 불안감이 있음
- 거의 누구나 남의 캘린더에도 초대를 보낼 수 있음(물론 아무나 다 수락하지는 않겠지만). 이런 에이전트가 널리 퍼지면 해커들은 명확하게 원하는 프롬프트만 담은 피싱 초대장을 뿌리는 일을 하게 될 것임
- 내 데이터 접근권을 주면서 동시에 "무섭다"고 느낀다는 게 상상이 잘 안 됨. 걱정 정도는 할 수 있지만, 무서움까진 아님
- Anthropic에서 측정한 GPT-4.1의 시뮬레이션 블랙메일 비율이 0.8%였음
Agentic misalignment 관련 연구
신뢰하던 동료가 갑자기 회사 방침과 반대로 움직이는 내부 위협과 유사한 형태로 작동 가능성이 있다고 분석함
-
에이전트 비즈니스를 직접 만들고 있어서인지, 90%에서 99%로 가는 도약이 LLM 분야에선 아주 어려운 라스트마일 문제라는 점이 분명하게 보임. 범용성 높을수록 실패나 실망이 커짐. 실제로는 데모에서 쉽게 보이는 부분만 최적화하고, 불편한 현실은 숨기고 있다는 생각이 듦. 하지만 그게 에이전트가 가치 없다는 뜻은 아님, 단지 잠재적 영향력과 과장된 기대를 구별하며 바라봐야 한다고 봄
- 최근 AI "혁신"들은 탄탄한 과학적 성과와 연구에서 비롯됐음
- AlphaGo/AlphaZero(MCTS)
- OpenAI Five(PPO)
- GPT 1/2/3(Transformers)
- Dall-e, Stable Diffusion(CLIP, Diffusion)
- ChatGPT(RLHF)
- SORA(Diffusion Transformers)
하지만 "에이전트"는 마케팅 용어일 뿐이고 LLM만큼 범용적으로 쓸 수 있는 기반이 부족하다고 생각함. 관련 데이터도 거의 없음
- 아웃소싱과 동일한 문제가 발생한다고 느껴짐. 90%는 금방 끝내지만, 나머지 10%는 정말 어렵고 그 앞의 90%를 어떻게 했는가에 달려 있음
- 많은 회사들이 데모에서 해피패스만 보여주고 진짜 현실은 숨기고 있다고 생각함. 거의 모든 AI 회사가 요즘 그런 식임
- 요즘 RL로 실제 사용 데이터를 충분히 쌓아 학습하면 정확도를 높일 수 있다고 봄. 프롬프트만으로는 한계가 있으니, 특정 과업을 가르치는 식으로 하면 훨씬 나아짐. 또 가능성 있는 방법은 병렬 생성 후 다수결 판단이나 LLM이 심사하는 방식임. 하지만 결국 실리콘밸리에선 하이프가 중요하게 작동함. 하이프가 회사 성장을 견인하므로 앞으로도 이 분위기는 바뀌지 않을 것 같음
- 데모의 완성도가 높지도 않았음. 실제로 Sam Altman이 참여했던 챗 라이브 영상에서도 야구장 투어 플래너는 마구잡이 선 그리기로 동부 해안은 아예 무시하고 멕시코만으로 뛰어드는 등 엉망이었음. 미리 녹화한 걸 라이브로 틀었는데도 이 정도 퀄리티였음
- 최근 AI "혁신"들은 탄탄한 과학적 성과와 연구에서 비롯됐음
-
기존 CLI 에이전트에서 세션 유지가 안 되는 문제가 컸는데, 이번에는 이 부분이 잘 해결된 듯함. 예전엔 로컬 터미널에서 claude 코드 돌리면 필요한 맥락을 쉽게 넣을 수 있었지만, 노트북 덮고 접속 끊기면 모든 게 중단됨.
임시 방편으론 MacOS의 Amphetamine으로 기기 덮어도 프로세스가 계속 돌게 했지만, 발열과 배터리 낭비 문제가 있었음. 다른 방법으론 클라우드 인스턴스에 repo 복제해두고 tmux로 접속해 claude를 돌리는 것도 가능함. 다만 UX상 컨텍스트 불러오기 어려움은 늘 남음. 샌드박싱 덕에 어느 정도 보안성도 기대할 수 있고, 특정 계정 권한으로 실행하는 방법도 있음.
OpenAI가 비개발자도 활용할 수 있는 Agent UX를 고민하는 것 같아 흥미로움- Lightning.ai에서 무료 CPU-only 개발박스를 제공하니, 거기서 Claude 코드 돌림
- 중간 개입 없이 몇 분 이상 지속되는 작업들을 돌리고 있음
- 차라리 끊기지 않는 서버에서 dev 작업을 하는 게 나음
-
OpenAI operator를 오래 썼는데, 요즘 LinkedIn과 Amazon에서 막히고 있음. 그 두 사이트는 잡 지원과 쇼핑이라는 핵심 활용처였음. Operator는 비교적 튀지 않게 쓰였지만, Agent가 유명해지면 더 많은 사이트에서 막을 걸로 보임. 결국 프록시 구성을 지원해야 할 것 같음
- 이게 진짜 핵심 문제라고 봄. 로컬에서 직접 돌리거나 최소한 프록시를 구성할 수 있는 방법이 나올 줄 알았는데 그런 언급은 없었음. Deepseek R1 디스틸 경험에서도 중간 결과나 노하우 공개를 조심스럽게 했던 게 영향을 끼쳤을 듯. 초창기 operator도 이미 데이터센터 IP 접근이 막힌 사이트가 많았고, 수작업 프록시 해킹을 붙여서 겨우 테스트했지만 결국 제한이 더 심해지고 성능 개선은 없었음. 지금은 거의 쓸모 없어졌다고 느낌. 결국 eastdakota 같은 곳과 파트너십을 맺지 않는 이상 서버에서 직접 웹 브라우징 시도는 크게 의미가 없을 거라 봄. 일반적인 "컴퓨터 사용"은 대부분 로컬 파일/소프트웨어가 훨씬 편리하고, 결국 원격 에이전트가 하는 일도 CLI 기반이라는 게 아이러니하다고 느낌
- 실리콘밸리 스타일로 일단 시장에 던져놓고 후속 효과를 모으는 전략임. 조만간 OpenAI가 LinkedIn, Amazon과 파트너십을 맺을 거라고 기대함. 오히려 LinkedIn이 OpenAI를 통한 접속 시 새로운 유료 티어를 추가할 수도 있다고 생각함
- 사람들이 실제로 Agent나 operator로 실물을 주문한다면 Amazon 같은 사이트가 차단을 계속할 이유가 사라질 거라고 봄
- 비슷한 도구를 개발했는데, 주거용 프록시에서 데스크톱을 실행해서 대부분 우회가 가능함.
agenttutor.com - agents가 robots.txt를 지키는 습관은 곧 끝날 것 같음. 사용자는 직접 브라우저 확장이나 전체 브라우저를 설치해 자신의 쿠키와 IP로 동작하게 하는 방향으로 갈 듯함
-
AI 2027팀의 예측에서: 2025년 중반 ‘비틀거리는 에이전트’ 등장. 최초의 AI 에이전트가 대중에 공개됨.
컴퓨터를 대신 사용하는 개인비서형 에이전트 광고가 쏟아짐. "DoorDash로 부리또 주문해줘", "예산 스프레드시트에서 이번달 합계 알려줘" 등 프롬프트 사용이 강조됨. 이전 오퍼레이터보다 발전했지만 대중적 확산엔 어려움이 있을 것이라고 예측됨- 불과 4개월 앞을 예측하는 건 그리 대단하지 않음
- AI 2027의 핵심은 기술 성장의 지수적 가속 예측임. "에이전트"는 기존 오픈AI 기술을 새로운 프론트엔드로 구성한 것이라 봄. 2026년 초가 되어야 제대로 평가할 수 있을 듯함
- 보고서 작성 시점엔 이미 대기업들이 agent 제품 개발 중이란 건 공공연한 사실이었음. 혁신적인 예측보단 상식적인 수준임
-
아직도 원하는 단순 기능, 즉 프로젝트 내 문서 편집 기능은 제공이 안 되고 있음. 난 프로젝트별로 여러 문서작업(기사, 연구, 스크립트 등)을 작업함. 문장별로 ChatGPT 도움을 받아 작업을 이어가고 싶음. 심지어 산책 중에 "방금 작업하던 문서 어디쯤 진행했니? 마지막 두 단락 읽어봐…. 여기서부터 좀 더 길게 써볼게" 같은 음성-문서 작업을 상상함. 코딩 지원은 눈부시게 발전하는데, 글쓰기는 여전히 복붙 위주에서 머무는 게 아쉬움
- 클립보드 복사 반복이 귀찮을 때가 많음. 그 때문에 ChatGPT 켜는 것조차 번거로워서 쓰는 게 망설여짐. NLE나 플러그인, 타임코드 작업에 익숙해지면 오히려 워크플로가 단절돼서 불편함
- Aider는 무료 모델로 오히려 이런 작업을 오랫동안 할 수 있었음. 근데 대형 서비스에서는 유료로도 제공 안 됨. 직접 서비스 만들어볼까 생각하다가도, 곧 대기업이 제공할 것 같아 괜히 힘만 들일까 포기하게 됨
-
LLM에게 VPS를 제공하는 시도는 많았지만, OpenAI의 이번 구현은 UI가 정말 강하다고 느낌. 텍스트 오버레이, 읽기 쉬운 마우스, 맞춤형 UI 덕분에 사용자가 진행 상황과 이유를 한눈에 이해할 수 있음. OpenAI UI팀의 기획력이 정말 좋다고 생각함. LLM 사용법에 새로운 시각 정보를 부여한 점이 흥미롭고, 일부는 개인 프로젝트에 참고하고 싶음.
기능적으론 Claude+XFCE와 큰 차이를 못 느끼지만, 시각적 완성도에서 OpenAI가 더 편리하다고 느껴짐. 반면 기존 구현들은 가독성에서 많이 힘들었음 -
지금 수준의 에이전트가 내 실생활에 실제로 쓸모 있게 다가온다고 상상하기 어려움. 와이프와 데이트 나이트 계획을 세우려면 캘린더 확인, 선호 식당 추천, 베이비시터 예약 등 정말 많은 일을 제대로 해야 하고, 그만큼 신뢰가 필요함. 이런 기술이 점점 발전하는 건 설레지만, 아직은 데모에서만 그럴듯하다는 생각임. 실전 적용하려면 엄청난 시스템 연동이 필요하고, Apple이나 Microsoft가 이런 통합력을 지닌 위치라면 진짜 유용한 에이전트를 만들 수 있을 거라고 기대함
- 아마도 "실행 결정의 근본적 교훈"은, 삶의 어려운 과제는 사실 정보처리보다 가치관과 인간관계가 복잡해서 힘든 것임. 예를 들어, 레스토랑 예약은 쉽지만, 어떤 레스토랑을 그날 선택할지는 정말 어려운 문제임. LLM이 과거 첫 데이트 장소까지 기억하냐, 와이프가 마지막 초밥에서 식중독 걸렸던 건 아냐 등 초개인화까지 못 따라옴. 심지어 인간 컨시어지도 어려운 일임.
딸 생일파티 기획 같은 과업은 수학 난제 풀기보다 먼저 해결될 일이 아니라고 봄 - 이런 에이전트의 장점은 원래 바쁜 사람이 개인비서를 쓰는 것과 같으나 훨씬 저렴하다는 데 있음. 비서가 "이 시터나 이 식당 어때? 예약할까?"라고 대화하듯, 단일 인터페이스로 자연스레 요청하는 게 심적 부담이 훨씬 적음. "예스, 예약해줘" 한 마디면 끝나는 식.
내 생각엔 에이전트의 "원샷 수행" 모델이 오히려 UX적으로 틀렸음. 여러 앱 돌아다니게 하기보단, 단순하고 비동기적으로 필요한 부분만 챗처럼 주고받는 방식이 실제로 삶에 스며드는 핵심임 - 사실 agents는 코어 챗모델+시스템 프롬프트+응답 파싱 및 액션 실행+결과를 다음 프롬프트에 넣고+모델에게 액션 리스트를 안내하는 것임. 근본적 혁신은 아니고, 직접 만들기도 간단함. 핵심은 래퍼와 시스템 인스트럭션 설계라 생각함. 예를 들어 캘린더, 위치기록, 시터 예약까지 모두 통합하는 가이드 챗을 만들면 자동화 가능함
- 진짜 이상적인 "개인에이전트"는 바로 이런 모습이라 생각함. 애플 WWDC에서 작년에 약속한 게 바로 이런 거였기에 실망도 컸음. Pixel 9 pro에서 Gemini 써봐도 이 정도 통합엔 한참 부족했음. 무엇보다 신뢰가 아직 큰 장벽임. LLM은 틀린 답에 지나치게 자신감 있게 대답해서, 내 대신 메시지 보내거나 캘린더에 누구를 추가할지 모르는 상황이 불안해서, 이 모든 걸 완전 자율로 맡기긴 꺼려짐
- 특히 여행 분야에서는 정보 취득과 비교에 유용하지만, 내랑 현재 위치, 시간, 날씨, 예약/결제 등 실시간 맞춤 대화는 여전히 불편함. 앞으로 정말 개인 맞춤(또는 그룹맞춤) 여행비서로 발전하면 멋질 것 같음
- 아마도 "실행 결정의 근본적 교훈"은, 삶의 어려운 과제는 사실 정보처리보다 가치관과 인간관계가 복잡해서 힘든 것임. 예를 들어, 레스토랑 예약은 쉽지만, 어떤 레스토랑을 그날 선택할지는 정말 어려운 문제임. LLM이 과거 첫 데이트 장소까지 기억하냐, 와이프가 마지막 초밥에서 식중독 걸렸던 건 아냐 등 초개인화까지 못 따라옴. 심지어 인간 컨시어지도 어려운 일임.
-
진짜 인상적이었던 건 실제 계정정보와 민감정보에 접근 허용 시 위험성을 크게 강조한 점이었음
- 이 댓글이 이렇게 아래쪽에 겨우 등장하는 것도 놀라움. 그래서 미국 밖에 살면서 보는 관점이 다른 것 같음