소프트웨어가 점점 더 많은 작업을 처리하고 있지만, 여전히 대부분의 비즈니스 프로세스는 인간이 소유함
AI agent는 이러한 업무 균형을 결정적으로 변화시킬 것으로 기대됨
이전 세대의 소프트웨어와 달리 새로운 인지 아키텍처를 통해 end-to-end 프로세스를 동적으로 자동화할 수 있음
이는 단순히 읽고 쓸 수 있는 AI가 아니라 애플리케이션 로직의 흐름을 결정하고 사용자를 대신하여 행동할 수 있는 AI이며, 기업에서 LLM의 가장 큰 기회를 나타냄
이거 그냥 RPA 아냐? : RPA의 한계와 문제점
이미 들어본 얘기 같을텐데 왜냐하면 UiPath와 Zapier는 지난 10년 동안 "bot automation"이라는 이름으로 유사한 비전을 판매해 왔음
UiPath는 RPA 거인으로, 화면 스크래핑과 GUI 자동화를 통해 사용자의 행동을 기록하고 순차적 단계를 모방하여 문서에서 정보 추출, 폴더 이동, 양식 작성, 데이터베이스 업데이트 등의 프로세스를 자동화함
이후 Zapier와 같은 iPaaS 제공업체는 더 가벼운 "API 자동화" 접근 방식을 도입하였으나, UiPath와 달리 웹 앱 자동화로 범위가 제한됨
UiPath와 Zapier는 부서나 산업 특정 소프트웨어 시스템 내부 및 사이에 존재하는 기업 프로세스의 long tail을 해결하기 위한 조합 가능한 규칙 기반 수평적 자동화 플랫폼 시장을 입증함
그러나 기업이 bot 기반 자동화를 확장함에 따라 기존 아키텍처의 역량과 약속된 자율성 간의 격차가 드러나기 시작함
여전히 많은 인력과 수작업이 필요함. 자동화 구축 및 유지 관리 프로세스는 여전히 고통스러울 정도로 수동적임
UI 자동화가 취약하거나 API 통합이 제한적임. UI 자동화는 소프트웨어 UI가 변경되면 자주 깨지고, API는 더 안정적이지만 레거시 또는 온프레미스 소프트웨어와의 통합이 훨씬 적음
비정형 데이터를 처리할 수 없음. 기업 데이터의 80%는 비정형 및 반정형 데이터이지만, 시퀀스 기반 자동화는 이 데이터와 지능적으로 작업할 수 없음
기존 RPA와 iPaaS 솔루션은 LLM을 통합하려 할 때조차 결정론적 아키텍처에 계속 수갑이 채워져 있음
UiPath의 Autopilot과 Zapier의 AI Actions은 텍스트 대 행동 또는 의미론적 검색, 합성, 원샷 생성을 위한 노드와 같은 하위 agent 설계 패턴에 대해서만 LLM을 제공함
이러한 AI 기능은 강력할 수 있지만, 프로세스 자동화에서 LLM의 더 혁신적인 사용 사례는 여전히 놓치고 있음
AI agent는 의사결정 엔진으로서 근본적으로 다름
Agent는 오늘날의 RPA 봇이나 RAG 앱과 달리 애플리케이션의 제어 흐름 중심에 의사결정 엔진으로 자리잡고 있음
처음으로 적응성, 다단계 행동, 복잡한 추론, 강력한 예외 처리를 가능하게 함
송장 조정(Invoice Reconciliation) 예시를 통해 의미를 설명해보면, 새로운 송장 PDF를 회사의 총계정원장과 일치시키는 간소화된 프로세스 다이어그램에서 워크플로의 복잡성은 빠르게 다루기 어려워짐
첫 번째 3개의 의사결정 집합 내에서도 모든 관련 예외 상황을 고려하는 것은 거의 불가능해짐
이 워크플로를 로봇처럼 실행하는 RPA 봇은 오류가 발생하고 부분적으로 일치하거나 누락된 항목을 사람에게 에스컬레이션하는 경우가 많음
그러나 동일한 워크플로에 agent를 적용하면 훨씬 더 우수한 성능을 발휘함
새로운 상황에 적응: 기본적인 추론과 관련 비즈니스 맥락을 바탕으로 새로운 데이터 소스, 송장 형식, 명명 규칙, 계정 번호, 정책 변경 등을 지능적으로 인식하고 적응할 수 있음
다단계 작업 가능: 송장 금액이 일치하지 않는 경우 공급업체의 최근 이메일을 검사하여 가격 변경 가능성을 확인하는 등 다단계 조사를 수행할 수 있음
복잡한 추론 시연: 국제 공급업체의 송장을 원장과 조정해야 하는 경우 송장 통화, 원장 통화, 거래일, 환율 변동, 국경 간 수수료, 은행 수수료 등 여러 고려사항을 함께 검색하고 계산해야 함. Agent는 이러한 유형의 지능을 수행할 수 있지만 RPA 봇은 사람에게 에스컬레이션할 수 있음
불확실성 고려: 개별 항목의 반올림 오차나 읽을 수 없는 숫자와 같은 예외에 대해 총 주문 금액 일치, 과거 송장 시기 및 빈도 등의 맥락을 바탕으로 강력하게 처리할 수 있음
AI agent 시장 지형도
AI agent는 더 이상 공상과학이 아님. 신생 기업부터 포춘 500대 기업까지 이미 이러한 시스템을 대규모로 구매하고 활용하고 있음
현재 agent 시장은 도메인 특이성과 LLM 자율성이라는 두 가지 주요 차원으로 시각화할 수 있음
도메인 특이성: 의료나 고객 지원과 같은 수직 산업이나 부서를 위한 전문화된 agent부터 광범위하고 일반적인 기능을 가진 수평적 agent 플랫폼까지 다양함
LLM 자율성: 언어 모델이 애플리케이션 로직을 독립적으로 계획하고 지시할 수 있는 정도를 나타냄
시장 지도의 우측 상단에는 가장 수평적이고 일반화 가능한 agent가 포함됨
Enterprise agent: 자연어 SOP나 신입 사원에게 제공하는 것과 유사한 규칙을 통해 여러 기능과 워크플로에 걸쳐 agent를 구축하고 관리할 수 있는 확장 가능한 플랫폼. 대부분 "agent on rails" 아키텍처를 사용하며, 각 새로운 프로세스에 대해 미리 정의된 작업, 비즈니스 맥락, 가드레일 세트에 agent를 기반해야 함
Browser agent: 웹 브라우징, 시각적 UI 작업, 텍스트 입력 등을 자동화하기 위해 다양한 소프트웨어 인터페이스와 기본 코드베이스에 대해 훈련된 비전 트랜스포머를 활용하는 "general AI agent" 설계를 따름. 일반화 가능성은 얻지만 일관성은 희생하는 경향이 있음
AI 기반 서비스: "agent on rails" 설계를 실제로 작동시키려면 광범위한 데이터 인프라와 가드레일이 필요하므로, Distyl이나 Agnetic 같은 회사가 "Palantir for AI" 모델로 고객과의 격차를 해소하기 위해 forward-deployed 엔지니어링 서비스를 제공함
그러나 모든 agent가 수평적이고 일반화 가능한 것을 목표로 하는 것은 아님. 문제 유형을 제한하여 신뢰성을 높일 수 있는 도메인 및 워크플로 특화 agent가 점점 늘어나고 있음
Vertical agent: SOP나 규칙에 따라 사람이 처리하는 수동적이고 절차 중심적인 프로세스에서 가장 유망한 기회가 존재함. 고객 지원, 채용, 코드 검토/테스트/유지 관리 등의 소프트웨어 개발 작업, 콜드 세일즈, 보안 운영 등이 대표적 범주임
AI assistant: 도메인 특이성이 아닌 작업 특이성을 통해 agent 초점을 좁히는 또 다른 방법. 엔터프라이즈 및 수직 agent가 처리하는 복잡한 end-to-end 프로세스와 달리 더 단순하고 생산성 중심의 작업을 수행함
Agent 자체는 아니지만 RAG 아키텍처를 중심으로 구축된 생성형 AI 솔루션이 agent 기반 솔루션과 동일한 예산과 워크플로를 두고 경쟁하기도 함
Vertical AI: 의료 자동화 플랫폼 Tennr은 팩스, PDF, 전화 등 다양한 출처의 비정형 데이터를 추출하여 진료소 EHR에 입력함으로써 의뢰 처리를 진행하고 직원의 수작업 입력 필요성을 제거함
RAG-as-a-Service: Danswer나 Gradient 같은 회사는 고객이 PDF 등 비정형 데이터 소스를 쿼리하고 데이터를 추출하여 더 구조화된 데이터베이스나 시스템에 입력할 수 있도록 함
Enterprise search: Glean, Perplexity, Sana 등은 개념적으로 관련된 문서를 색인화하고 검색하여 조직 전체의 지식을 더 잘 관리하고 데이터 사일로를 해체하기 위해 의미론적 쿼리를 제공함
미래의 기업 자동화
생성형 AI의 두 번째 물결은 단순히 읽고 쓰는 것이 아니라 사용자를 대신하여 생각하고 행동할 수 있는 agent에 의해 정의될 것임