AI 에이전트: "더 많은 기능"보다 "더 높은 신뢰성"이 필요함

(sergey.fyi)

5P by GN⁺ 8달전 | ★ favorite | 댓글 1개

항공편 예약은 왜 AI 에이전트 데모의 "Hello World"가 되었을까?
- 사용자는 AI가 비행기를 예약해주는 것보다 이미 완성된 UX(예: Google Flights)를 선호함
- 단 한 번의 실수로 복잡한 고객 서비스 지옥이 시작될 수 있음
- 직관적이고 예측 가능한 시스템이 오히려 더 혁신적임
AI는 아직 초기 단계이며, 일반 사용자는 일관성과 예측 가능성을 기대
- 예: 80% 정확도라도 일관된 결과를 내면 수용 가능
  반면, 불규칙한 90% 정확도는 신뢰를 무너뜨림
- 많은 AI 프로젝트는 이를 간과하고 화려한 데모와 무리한 기능을 추구함 → 결국 신뢰 상실
점점 더 많은 IDE가 투명성을 잃고 있음
- 사용자가 AI가 무엇을 하고 있는지 알 수 없음
- 예: Reddit에서 화제가 된 Cursor가 전체 작업을 삭제한 사건
  - 사용자의 버전 관리 미숙도 문제이지만, 진짜 원인은 UI/UX 설계
  - 좋은 설계는 실수를 예방하고 AI의 동작을 명확히 설명, 실행 취소 기능을 제공해야 함
Cursor는 초기에는:
- 탭-완성 인터페이스로 투명하고 가벼운 상호작용 제공
- 사용자 신뢰를 서서히 쌓는 방식으로 인기를 얻음
- 단순하고 되돌릴 수 있는 디자인이 AI 불신을 줄이는 데 효과적이었음
$2억 투자를 받은 Devin은 "완전 자율 에이전트"를 지향
- 복잡한 시스템, 느린 반응, 예측 불가능한 결과로 신뢰 붕괴
- 지나치게 야심 찬 접근이 오히려 사용자 혼란 초래

신속함 vs. 신뢰성: AI 개발팀의 딜레마

AI 개발팀은 다음 중 하나를 선택해야 함:
- 빠르게 움직이다가 실수를 감수할 것인가
- 신뢰성과 안정성을 우선할 것인가
해답은 "작은 범위에서 뛰어난 성과"를 낼 수 있는 기능에 집중하고, 꾸준히 반복 개선하는 것

핵심 원칙: 복잡성보다 예측 가능성

복잡한 시스템보다는 잘 이해된 태스크에 집중해야 함
AI 에이전트는 여전히 변혁적이지만, 다음 세 가지가 중심이 되어야 함:
- 신뢰성
- 투명성
- 예측 가능성

워크플로우 vs. 에이전트

Anthropic의 프레이밍: "태스크가 워크플로우로 표현 가능하다면, 에이전트가 아닌 워크플로우를 만들 것"
- 워크플로우는 예측 가능하고, 제어 가능하며, 단순함
- 에이전트는 복잡하고 제어가 어렵기 때문에 진정한 동적 상황에서만 사용해야 함

▲

GN⁺ 8달전 [-]

Hacker News 의견

"비행기 예약" 에이전트는 이제 농담의 소재가 되었음. Swyx의 최근 AI 엔지니어 이벤트 키노트에서도 언급되었음
- 이 글은 이 문제의 어려움을 과소평가하고 있다고 생각함
- 인간이 입력하거나 대화하는 UI에서는 무한한 오류 가능성이 존재함
- 인간은 명확하게 표현하는 데 서툴고, 소프트웨어의 기능을 정확히 이해하는 것도 어려움
Google Deepmind 연구자들이 에이전트의 신뢰성을 높이기 위한 연구를 진행 중임
- 사용자 행동을 대표하는 엄격한 평가가 중요함
- JFK 암살 파일 80,000 페이지에 대한 에이전트의 고급 추론 데모를 게시했음
- 소량의 파일에서도 대형 AI 플레이어와의 신뢰성/정확성 차이가 큼
비행기 예약은 AI에게 맡길 수 없는 작업임
- 가족 여행이나 개인 여행 시 다양한 요령이 필요함
- 공식 웹사이트와 가격 비교, 날짜 확인, 신용카드 포인트 고려 등 다양한 요소가 있음
많은 경우 사람들이 AI를 기존 워크플로우에 맞추려는 경향이 있음
- 기존 워크플로우는 이미 최적화된 UX/UI를 가지고 있음
- AI를 사용하는 것이 문제 해결을 위한 솔루션이 아닐 수 있음
Cursor 사용 경험에서 신뢰성이 중요하다는 결론에 도달했음
- 빠른 모델의 출력은 더 많은 수정이 필요함
- 특정 라이브러리를 명확히 사용하는 것이 중요함
지난 20년 동안의 기술 발전에서 신뢰성이 더 중요하다고 생각함
- 스마트폰, 운전 경로, 클라우드 저장소 등 몇 가지 새로운 기능만 필요함
- 이제는 배터리 수명과 자녀 기기의 부모 통제 기능이 중요함
AI 프로그래밍의 현재 상태에 대한 Reddit 스레드의 댓글이 내 감정을 요약함
- AI로 인해 프로그래밍에 입문하는 새로운 엔지니어들이 기본적인 필수 요소를 놓치고 있음
- 하지만 여전히 내 자리가 있다는 점에서 안심됨
AI가 코드를 작성할 때 최소한 그 코드를 이해할 수 있어야 한다는 원칙을 가지고 있음
- AI가 작성한 코드를 이해하지 못하는 "감각 코더"들의 방식은 따를 수 없음
워크플로우가 에이전트보다 중요하다고 생각함
- 에이전트가 높은 정확도로 작업을 실행할 준비가 되었을 때 워크플로우를 사용할 수 있음
- 효과적이고 정확하며 쉽게 진단 가능한 워크플로우를 만드는 방법을 찾을 것임
Google Flights는 이미 완벽한 UX를 제공하고 있음
- AI 에이전트를 사용할 때 웹 검색이 더 신뢰할 수 있고 빠르다고 생각함
- AI가 유용해질지에 대한 확신이 없고, 테스트가 제대로 이루어졌는지 의문임

답변달기