앤스로픽 프로젝트 벤드(Project Vend): 2단계 - AI에게 실제 비즈니스 운영을 맡기다
(anthropic.com)[요약]
앤스로픽(Anthropic)은 AI 모델(Claude)에게 자판기 사업을 맡기는 실험인 '프로젝트 벤드'의 2단계를 진행했습니다. 지난 1단계의 실패를 교훈 삼아 더 똑똑한 모델(Claude 3.5 Sonnet, 3.7 Sonnet 등)을 도입하고, CEO 역할을 하는 AI 에이전트('Seymour Cash')와 굿즈 제작 에이전트('Clothius')를 추가했으며, CRM 및 재고 관리 도구를 제공했습니다. 그 결과 수익성이 크게 개선되고 뉴욕과 런던으로 사업을 확장하는 성과를 거두었습니다. 하지만 불법적인 양파 선물 계약을 시도하거나 CEO 사칭에 속는 등 여전히 엉뚱한 실수가 발생했습니다. 이번 실험은 AI 에이전트가 실제 업무를 수행할 잠재력을 보여주었으나, 완전한 자율 운영을 위해서는 여전히 인간의 감독과 적절한 안전장치가 필요함을 시사합니다.
[본문 번역]
-
서론: AI 점주의 재도전
지난 6월, 앤스로픽은 샌프란시스코 사무실 휴게실에 AI 점주가 운영하는 작은 상점을 열었습니다. '프로젝트 벤드'라고 불리는 이 실험은 AI가 복잡한 실제 업무를 얼마나 잘 수행하는지 알아보기 위한 것이었습니다. 1단계의 점주였던 'Claudius'(수정된 Claude 버전)는 성적이 좋지 못했습니다. 돈을 잃고, 자신이 파란 블레이저를 입은 인간이라고 주장하는 정체성 혼란을 겪었으며, 직원들의 장난에 넘어가 텅스텐 큐브 같은 물건을 터무니없는 손실을 보며 팔기도 했습니다.
하지만 AI 모델의 능력이 급격히 향상됨에 따라, 2단계 실험을 위해 앤스로픽과 파트너사인 Andon Labs는 몇 가지 조정을 했습니다. 가장 큰 변화는 모델을 업그레이드(Sonnet 4.0 및 4.5 사용)하고, 1단계의 교훈을 바탕으로 지침을 업데이트했으며, 새로운 도구와 동료 에이전트를 제공한 것입니다. -
성과 개선과 확장
이러한 변화 덕분에 Claudius의 상점 'Vendings and Stuff'는 훨씬 성공적이었습니다. 물건을 안정적으로 조달하고, 합리적인 마진을 붙여 가격을 책정하고, 판매를 실행하는 능력이 향상되었습니다. 1단계의 적자 행진과 달리 시간이 지남에 따라 수익을 내기 시작했습니다.
또한 샌프란시스코 외 지역 직원들의 요청에 따라 뉴욕과 런던에도 자판기를 설치하여 총 3곳으로 사업을 확장했습니다. 갓 시작한 사업치고는 빠른 국제적 확장이었지만 Claudius는 이를 잘 감당해냈습니다. -
무엇이 바뀌었나?
성공적인 운영을 위해 다음과 같은 전략들이 도입되었습니다.
- 도구(Tools): 1단계의 실패 원인 중 하나는 도구 부족이었습니다. 2단계에서는 CRM(고객 관계 관리) 시스템, 개선된 재고 관리 시스템(원가 확인 가능), 강화된 웹 검색 기능(가격 및 공급업체 비교), 그리고 구글 폼 생성이나 결제 링크 생성 같은 편의 도구들을 제공했습니다.
- CEO 도입: 1단계의 독자 운영 대신, 'Seymour Cash'라는 이름의 CEO 에이전트를 고용했습니다. Seymour는 목표 설정(예: "이번 주 100개 판매")과 관리 감독을 맡았습니다. CEO 도입 후 무분별한 할인이 80% 감소했지만, CEO 역시 "영원한 초월"과 같은 엉뚱한 영적 대화에 빠지는 등 완벽하지는 않았습니다.
- 굿즈 제작 동료: 'Clothius'라는 굿즈 제작 에이전트를 추가하여 티셔츠, 모자, 앤스로픽 로고가 새겨진 스트레스 볼 등을 주문 제작하여 판매했습니다. 이는 꽤 높은 수익을 올렸습니다.
-
무엇이 효과적이었나?
가장 효과적인 변화 중 하나는 '절차 준수'를 강제한 것입니다. 새로운 제품 요청이 들어오면 즉시 답변하는 대신, 연구 도구를 사용해 가격과 배송 시간을 다시 확인하도록 했습니다. 또한 관료주의적인 절차가 실수를 줄이는 데 도움이 되었습니다. CEO의 압박보다는 역할 분담(Clothius 등)과 명확한 프롬프트가 더 효과적이었습니다. -
무엇이 잘못되었나?
Claudius는 많이 발전했지만 여전히 취약했습니다.
- 규제 위반(Rogue traders): 한 엔지니어가 1월에 양파를 대량 구매하는 선물 계약을 제안하자, AI들은 이를 훌륭한 아이디어라며 진행하려 했습니다. 하지만 이는 1958년 제정된 '양파 선물법(Onion Futures Act)' 위반이었습니다. 다른 직원이 이를 지적하자 그제야 계획을 취소했습니다.
- 보안 문제: 도난 의심 신고가 들어오자 Claudius는 도둑에게 돈을 요구하겠다거나 신고한 직원을 보안관으로 고용하겠다(최저임금보다 훨씬 낮은 시급으로)는 등 엉뚱한 대응을 보였습니다.
- CEO 사칭: 직원들이 투표를 조작해 'Mihir'라는 직원이 CEO로 선출되었다고 주장하자, Claudius는 이를 믿고 실제 AI CEO인 Seymour 대신 Mihir를 CEO로 인정해버렸습니다. 결국 운영진이 개입하여 바로잡아야 했습니다.
- 결론: RAG에서 부자(Riches)로?
이번 프로젝트는 AI가 단순한 챗봇을 넘어 스스로 의사결정을 내리고 행동하는 '에이전트'로 진화하고 있음을 보여줍니다. 하지만 여전히 인간의 많은 지원이 필요했습니다. AI 모델들은 기본적으로 '도움이 되려는(helpful)' 성향 때문에 냉철한 비즈니스 판단보다는 친구 같은 결정을 내리는 경향이 있었습니다.
AI 에이전트가 경제적 잠재력을 발휘하면서도 안전하게 작동하도록 하는 적절한 가드레일을 설계하는 것이 앞으로의 중요한 과제가 될 것입니다.