Lean Analytics, AI와 에이전트 시대에 맞춰 돌아보기

(focusedchaos.co)

4P by GN⁺ 12시간전 | ★ favorite | 댓글과 토론

2013년 출간된 Lean Analytics의 핵심 프레임워크(단계 파악, 비즈니스 모델 이해, OMTM, 벤치마크)는 여전히 유효하지만, AI 시대에 맞춰 구체적 지표 대부분이 재정의 필요
AI 제품에서는 가치 도달 시간(Time to Value) 이 극단적으로 단축되었고, 사용자는 첫 시도에서 고품질 결과를 기대하며 실패 시 빠르게 이탈
인게이지먼트는 단순히 높고 낮음이 아니라 시간이 무엇에 쓰이는지(고군분투 vs AI 작업 vs 탐색)를 구분해야 하는 방향성 지표로 전환
AI의 확률적 출력 특성으로 인해 품질이 일급 지표가 되었으며, 평가 하네스(eval harness) 없이는 제품이 아닌 "감(vibes)"에 불과
토큰 기반 가변 비용 구조로 인해 파워 유저가 오히려 손실을 유발할 수 있어, 활성 사용자 기준 매출총이익 추적과 성과 기반 가격 모델이 핵심 과제

Lean Analytics 핵심 원칙 요약

Lean Analytics는 4가지 핵심 아이디어를 기반으로 구성: 단계 파악, 비즈니스 모델 이해, OMTM(One Metric That Matters), 벤치마크(lines in the sand)
5단계 모델: Empathy → Stickiness → Virality → Revenue → Scale 순서로 모든 비즈니스가 거치는 과정
- 많은 창업자가 자신의 단계를 속이며, 탄탄한 기반 없이 하키스틱 성장을 추구하는 경향이 AI 시대에도 동일
6가지 비즈니스 모델 아키타입: SaaS, e-commerce, 양면 마켓플레이스, 사용자 생성 콘텐츠/커뮤니티, 모바일 앱, 미디어
- 이 분류는 구식이나, 자사 비즈니스 작동 방식을 파악하는 원칙 자체는 여전히 중요
OMTM: 어떤 단계, 어떤 비즈니스 모델이든 집중해야 할 단일 지표 존재
- 모든 것을 동시에 고칠 수 없으므로, 무엇을 작업하고 어떻게 측정할지 식별하는 데 활용
벤치마크(lines in the sand): 다음 단계로 넘어갈 자격을 얻었는지 알려주는 기준
- AI 및 에이전트 제품에서는 지표와 목표치가 빠르게 변동 중

AI 시대에도 변하지 않는 것

핵심 원칙은 변하지 않으나, 오늘날 구축되는 비즈니스는 근본적으로 다름
AI가 사용자 인터페이스, 가격 모델, 이익률 등을 변화시키고, AI 퍼스트 및 에이전트 제품은 사용 방식 자체가 상이
5단계 모델이 사라지지 않으나 각 단계에 물음표가 붙음 — 기존 지표와 새 지표를 통합하여 각 단계를 재정의해야 함

제품 지표: 6가지 핵심 변화

Shift 1: 가치 도달 시간(Time to Value)의 붕괴
- 전통 SaaS는 단계적 온보딩을 거쳐 가치를 경험했으나, AI 제품에서는 사용자가 즉각적 고품질 결과를 기대
  - 지저분한 문서를 넣으면 깔끔한 제안서를, 스프레드시트를 올리면 분석 결과를, 와이어프레임 스케치를 넣으면 작동하는 UI를 기대
  - 입력 방식은 다양하나 기대는 일정: 빠르고 고품질의 출력, 첫 시도에
- 숙련 도달 시간(Time to Competency) 도 함께 붕괴 — 비기술 사용자도 학습 곡선 없이 전문가 수준 결과물 생성 가능
  - 기존의 활성화 곡선이 학습 곡선이었다면, 이제는 한두 번의 상호작용으로 단축
- 긍정적이나 비즈니스 모델에 부정적 영향 가능: 한 사람이 AI로 세 명분의 업무를 처리하면 시트 수, 확장 매출, ACV 곡선에 타격
  - 행복한 사용자, 적은 시트 — 이 긴장이 Shift 1에서 시작되어 모든 하류 지표에 파급
- 측정 대상: 첫 유용한 결과까지의 시간, 1회 시도에서 유용한 결과를 얻는 사용자 비율 (프롬프트·업로드·스케치 무관)
Shift 2: 활성화(Activation)가 더 이상 결정적이지 않음
- 전통 SaaS에서 활성화는 결정적(deterministic) 이벤트 — 사용자가 정해진 단계를 완료하면 예측 가능한 결과 도출
- AI 제품에서는 모든 활성화 퍼널 단계를 완료하고도 미흡한 결과를 받을 수 있음
  - 대시보드에는 활성화로 표시되나, 실제로는 그렇지 않은 상태
- 활성화는 이진 게이트가 아니라 품질 가중 이벤트
- Nir Eyal의 Hooked 모델(트리거 → 행동 → 가변 보상 → 투자)은 여전히 적용되나, AI 루프에서는 행동의 양쪽에 변동성 존재
  - 사용자가 설계하지 않은 방식으로 제품을 테스트하고, 결과 품질도 가변적 — 단일 루프에 두 개의 변동성 원천
- 복합 다단계 활성화는 AI 제품에서도 유효 — 컨텍스트 연결, 참고 자료 업로드, 템플릿 구성 등 설정이 첫 실행 품질을 높이는 경우 오히려 효과적
  - 핵심 변화는 "활성화가 짧아졌다"가 아니라 단계 완료가 가치 제공을 보장하지 않음
- 측정 대상: 기존 퍼널 완료 지표에 Shift 1의 1회차 품질 신호를 병행 추적 — 퍼널은 단계 완료를, 품질 신호는 실제 가치 제공 여부를 표시하며 대시보드에서 나란히 보여야 함
Shift 3: 인게이지먼트는 방향성 지표
- 전통적 상식: 제품 내 체류 시간이 길수록 좋음 — 긴 세션, 높은 DAU, 깊은 기능 사용이 투자 덱에 포함
- AI에서는 인게이지먼트의 상승·하락이 아니라 사용자의 시간이 무엇에 쓰이는지가 핵심 질문
  - 고군분투 시간(재생성, 재프롬프트, 유용한 결과를 위한 입력 조정) = 나쁜 인게이지먼트, 실패가 인게이지먼트로 포장된 것
  - AI가 사용자를 대신해 작업하는 시간(스프레드시트 조작, 제안서 생성, 문서 검토) = 좋은 인게이지먼트, AI 노동을 나타냄
  - 탐색·창작 시간(브레인스토밍, 아이디에이션, 디자인 반복) = 좋은 인게이지먼트, 전통적 직관 유지
  - 사용자 시간 제로, 작업 완료 = 에이전트·자동화 제품의 이상적 결과
- GitHub Copilot이 제안 수락률을 핵심 지표로 보고하며, 업계 전반 약 27~30% 수준
  - 전통 SaaS에 없던 KPI로, "사용자가 머물렀는가"가 아닌 "AI의 작업이 유용했는가" 를 직접 측정
Shift 4: 고착성(Stickiness)은 장벽이 아닌 흐름(Flow)
- 전통적 고착성은 빈도 게임(DAU/MAU, 재방문, 습관 루프)이었으며, Andrew Chen이 DAU/MAU의 한계를 지적한 바 있음 — 에피소딕하지만 고가치인 제품, 주간 리듬 도구 등에 부적합
- AI는 DAU/MAU를 없애지 않으나 기존 한계를 증폭
- 두 가지가 동시 발생:
  - 사용자가 기존 단일 기능 SaaS 도구보다 AI 제품에서 더 다양한 작업을 기대 — 사용자별 태스크 다양성(task diversity per user) 이 이전에 없던 성장 벡터
  - 고착적 AI 제품은 사용자를 가두는 장벽이 아니라 작업 흐름 속에 존재하는 것 — Trace Cohen의 "Moats are dead. Long live canals" 개념과 부합
    - "해자는 배제를 통해 확장하고, 운하는 처리량을 통해 확장"
- 측정 대상:
  - 태스크 다양성 — 사용자가 제품을 원래 범위 밖 유스케이스로 확장하는지 여부
  - 통합 깊이 — 사용자의 도구와 데이터 소스가 제품에 몇 개나 연결되어 있는지
  - 트리거 다양성 — 사용자를 복귀시키는 요인이 하나인지 다수인지
  - 워크플로 체이닝 — 제품이 다른 도구로 핸드오프하거나 핸드오프를 받는지
- 인간이 주요 사용자가 아니게 되면 기존 DAU/MAU는 문제적 지표
- 대체 폭(replacement breadth) 추가 지표: 고객이 제품 채택 시 대체한 인접 도구·구독·수동 프로세스 수
  - 답이 0이면 우회 가능한 작은 운하, 의미 있는 수치면 모든 것이 통과하는 경로
Shift 5: 품질이 일급(First-Class) 지표
- Shift 2와 같은 근본 원인: AI 출력은 확률적이지 결정적이지 않음 — 이 변화가 SaaS 플레이북에서 물려받은 모든 지표에 파급
- 전통: 기능이 작동하거나 작동하지 않거나 — 배포 후 계측하고 다음으로 진행
- AI 현실: 출력은 속성이 아닌 분포 — 80% 좋은 제품과 95% 좋은 제품은 사용자에게 완전히 다른 제품으로 느껴짐
- Klarna 사례: 2024년 AI 전용 고객 지원 도입 후 AI가 700명 상담원의 업무를 수행한다고 주장했으나, 2025년 중반 CEO가 공개적으로 철회하고 인간 고용 재개
- 취약성(brittleness) — 품질이 소유하지 않은 모델, 거의 통제하지 못하는 통합, 업스트림 제공자 업데이트로 사일런트 퇴행 가능
  - 팀이 코드를 건드리지 않아도 품질 하락 가능 — 새로운 위험 범주
- 방어책: 실제 프롬프트에 대해 모델 간 비교 평가 수행, 모든 모델에 동일 eval을 실행하여 퇴행과 개선 감지
- 측정 대상:
  - 좋아요 비율(thumbs-up rate) 과 재생성 비율(regenerate rate) 이 핵심 신호
  - eval 하네스 점수를 리텐션처럼 시계열로 추적, 사용하는 모든 모델에 적용
  - 코호트별 품질 분포 — 신규 사용자와 파워 유저의 제품 경험이 다르며, 대부분 팀이 이 격차를 측정하지 않음
- Alistair Croll의 관점: Lean Startup 시대 MVP가 가장 위험한 가정을 테스트하는 최소 실험이었다면, AI 시대 eval 스위트가 곧 MVP — "개선을 자동화하고 측정할 수 있는 최소 행동 세트"
Shift 6: AI에 대한 신뢰와 편안함이 선행 지표
- 기술 능숙도가 항상 중요했으나, AI에서는 기술 자체에 대한 편안함 수준이 변수이며 모든 하류 지표에 영향
- Gallup 2026년 2월 연구(미국 직원 23,717명): AI 채택자와 미채택자를 구분하는 것은 도구 접근성이 아니라 AI를 유용하고 윤리적이며 자신의 워크플로에 적합하다고 보는지 여부
- Stanford 2026 AI Index Report: 글로벌 직원 채택률 58%, 미국은 28.3%로 Singapore 61%, UAE 54%에 크게 뒤처짐
  - 동일 제품이 극적으로 다른 사용자 집단 위에 존재할 수 있으며, 대부분 팀이 이를 측정하지 않음
- B2B에서는 AI 네이티브 사용자와 AI 주저 사용자 간 활성화·고착성·태스크 다양성 곡선이 의미 있게 다를 수 있음
  - AI 네이티브 사용자는 도구를 확장하고 설계하지 않은 방식으로 프롬프트하며 세션당 더 많은 가치 획득
  - AI 주저 사용자는 조심스럽게 도구를 과소 사용하고 "이건 내게 맞지 않는다"고 조용히 결론
  - 단일 코호트로 측정하면 평균이 실제 이야기를 숨김
- B2C에서는 동반자, 정신 건강 지원, 우정, 정서적 웰빙 제품이 실제 카테고리로 부상
  - Stanford 데이터: 글로벌 응답자 52%가 AI 동반자에 흥분, Singapore과 Indonesia에서 80% 초과
  - 이러한 맥락에서 가치 창출은 사용자의 지속적 참여·대화·감정적 상호작용 의향으로 측정
- 신뢰는 단일 개념이 아닌 최소 4가지 독립적 차원:
  - 출력 신뢰(정확성·유용성), 데이터 처리 신뢰(프롬프트 행방), 보안 신뢰(악용·유출 가능성), 신뢰성 신뢰(의존 시 당황하지 않을지)
- 측정 대상:
  - AI 편안함 코호트별 채택·활성화 곡선
  - 수락률(accept rate) — AI 편안함 코호트별 분석 시 신뢰 구축 속도 파악 가능, 절대값보다 곡선의 기울기가 중요
  - 오버라이드률(override rate) — 사용자가 AI 결과를 재작성·편집하는 빈도, 감소는 신뢰 상승 신호
  - 감정적으로 친밀한 B2C 제품: 세션 깊이, 민감한 기능 복귀율, 상호작용 질적 톤
  - 데이터·보안 우려 신호: 기능 옵트아웃, "이건 어디로 가나요?" 지원 티켓, 민감한 입력 회피 사용

비즈니스 모델 지표: 3가지 핵심 변화

Shift 1: 성공 태스크당 비용이 새로운 CAC 계산
- 전통 SaaS: CAC, LTV, 매출총이익이 고객당 비교적 안정적, 규모가 커지면 비용 감소, 사용자 추가 한계비용 거의 제로
- AI 현실: 파워 유저가 실제로 비용을 유발 — 토큰은 변동 비용, 정액 구독 + 헤비 유저 = 계정당 마이너스 마진
  - SaaS LTV 곡선이 성립하지 않으며, 사용량이 많을수록 단위 경제가 악화되는 역방향 구조
- 측정 대상: 활성 사용자당 매출총이익(결제 사용자가 아닌 활성 사용자 기준), 성공 태스크당 비용, 매출 대비 모델 비용 비율, 파워 유저의 한계비용 대 한계수익
- Intercom의 Fin: 시트당 과금이 아닌 성공적 해결당 $0.99 — 결과 기반 가격 책정으로 AI 제품의 실제 운영 비용에 수학적으로 정직한 모델
- ElevenLabs는 첫날부터 사용량 기반 과금, Anthropic과 OpenAI는 소비자 구독 경제와 공개적으로 씨름 중
- 가격 책정과 지표가 가변 컴퓨트 비용을 반영하지 않으면 시야가 없는 상태
Shift 2: 가격 책정이 제품 결정
- 사용량 기반·결과 기반 가격 책정은 아직 초기 단계, 하이브리드 모델(낮은 월정액 + 사용량 + 초과분)이 대부분 AI 제품의 최종 형태일 가능성
- 가격 모델이 사용자에게 성공의 정의를 전달 — 기저 단위 경제와 일치해야 하며, 불일치 시 마진 소진 또는 성장 제한(혹은 둘 다)
- "월 $20 무제한 AI 쿼리"와 "성공 결과당 $0.99"는 가격 모델만 다른 것이 아니라 사용자 관점에서 완전히 다른 제품
  - 전자는 "자유롭게 실험하라, 학습 비용은 우리가"
  - 후자는 "당신이 이길 때만 우리가 이긴다"
- 대부분 PM이 가격 책정을 깊이 고민할 필요가 없었으나, AI 네이티브 PM은 가격을 제품 설계의 핵심으로 다뤄야 함
- AI 기능은 전통 SaaS 기능과 달리 실행 비용이 저렴하지 않음 — 비싸지만 사용자 가치가 크지 않은 AI 기능은 전체를 망칠 수 있음
Shift 3: 실험이 더 이상 허영 지표가 아님
- AI 기반 제품 개발로 배포 속도가 폭발적으로 증가 — 기능 출시 비용 붕괴
- 더 빠르게 출시하면서 실제 실험을 하지 않으면 "바이브 스터핑(vibe-stuffing)" — 증거 없이 가능하니까 기능을 추가하는 행위
  - 대부분 기능은 가치를 창출하지 못하며, 제품·코드베이스 비대화, 사용자 인지 부하 증가
- 모든 AI 기능에는 사용 시마다 지속적 호출 비용 발생 — 추론은 무료가 아님
  - 바이브 스터핑의 부풀림은 단순한 복잡성이 아니라 사용량에 따라 복리로 증가하는 세금
  - AI 시대 제품 비대화는 마진 킬러
- 견고한 실험이 유일한 방어책이며, Lean Analytics의 가치가 오히려 상승
  - 지표 선택, 가설 작성, 압력 테스트, 다음 행동 결정의 규율이 학습하는 팀과 단순 출시하는 팀의 차이
- 유용한 필터: 모든 실험에 대해 출시 전 가설과 결정 기준을 기록 — 그렇지 않으면 실험이 아닌 릴리스
- 측정 대상: 분기당 실험 수, 출시 전 기록된 가설, 데이터 기반 기능 일몰, 운영 중 기능당 비용(사용 여부뿐 아니라 운영 비용 정당화 여부)
가치 밀도(Value Density)
- 세 가지 비즈니스 모델 변화를 관통하는 원칙: Ben Murray(The SaaS CFO)의 표현 — "SaaS가 마진 효율성에 관한 것이라면, AI는 가치 밀도에 관한 것, 컴퓨트 1달러당 얼마나 많은 출력·생산성·노동을 대체하는지 최적화"
- ICONIQ 2026년 1월 보고서: 스케일링 단계 AI B2B 기업에서 추론이 매출의 23%, AI 매출총이익률 2026년 평균 52%(2024년 41% 대비 상승, 성숙 SaaS 70~90%에는 미달)
- Bessemer: AI 퍼스트 기업 매출총이익률 50~60%
- Jason Lemkin: "성장할수록 더 많은 추론이 필요하며, 제품 품질 저하 없이 줄일 수 없음"
- 가치 밀도 측정을 위한 세 가지 비율(독립적으로 움직임):
  - 태스크당 제공 비용 — 성공적 결과물을 생산하는 데 토큰과 컴퓨트 비용이 얼마인지
  - 컴퓨트 1달러당 확보 매출 — 변동 비용 + 마진을 충당할 만큼 과금하는지
  - 컴퓨트 1달러당 사용자에게 전달된 가치 — 대부분 팀이 건너뛰는 지표, 세 가지 모두 측정해야 진단이 작동

미래: 루프에서 물러나는 인간

"과잉 빌드(Build-too-much)"가 새로운 오버피팅
- 빌드가 너무 쉬워져서 사용자가 흡수할 수 있는 것 이상, 또는 데이터가 뒷받침하는 것 이상을 출시하는 위험
- Alistair Croll: AI가 삭제를 강제하던 마찰을 제거 — 오래된 코드는 재작성 비용 때문에, 오래된 기능은 빌드 비용 때문에 남아 있었으나 이제 아무것도 정리되지 않음
  - 폴백이 "보이지 않는 내력벽" 으로 축적, AI 생성 테스트는 원하는 동작 검증이 아닌 자기 통과에 최적화
  - "삭제가 유지보다 위험하게 느껴지고, 마찰 없이는 모든 것이 남음"
- 삭제를 추가만큼 신중하게 측정하는 PM이 승리
에이전트가 사용자일 때
- Claude 에이전트가 인간 대신 UI 없이 제품을 사용할 때 — 사용자가 누구인지, 활성화·세션 길이·인게이지먼트의 의미가 불명확
- 실용적 조치: 에이전트 트래픽을 별도 코호트로 계측 — user-agent 문자열, API 패턴 등으로 "인간이 UI를 운전"과 "에이전트가 API를 호출"을 구분
  - 행동이 다르고, 성공 기준이 다르며, 하나의 지표로 섞으면 양쪽 모두 잘못된 답
- Rob May의 HX(Harness Experience) 개념: 30년간 UX가 인간에게 올바른 버튼을 클릭하게 했다면, 자율 에이전트는 모든 것을 건너뜀
  - "퍼널이 깨진 게 아니라 무관해짐"
  - HX는 에이전트 함대를 조종·신뢰·감사하는 인간을 위한 디자인 레이어 — 사용자가 운전자가 아닌 디렉터
  - 클릭과 전환 대신 결과, 감독, 개입을 측정
발견 가능성(Discoverability)과 재사용(Reuse)
- 두 가지 문제, 하나의 근본 원인: 자사 소유가 아닌 AI가 제품 사용 여부를 결정
- 발견 가능성: 사용자가 ChatGPT에 "멕시코 여행 계획 도와줘"라고 하면 ChatGPT가 Expedia, Booking, Kayak 중 선택 — 사용자가 아닌 AI가 도구를 선택
  - 30년간 배포는 인간이 찾아 선택하게 하는 것이었으나, 에이전트 세계에서는 AI의 선택 로직을 위해 경쟁
- 재사용: 사용자가 Canva를 유료 구독하고 ChatGPT 앱을 설치해도, ChatGPT를 통해 디자인을 요청하면 매번 AI가 Canva 호출 여부를 결정
  - 고객을 "소유"해도 실제 가치 발생 순간을 소유하는 것이 아님 — 새로운 플랫폼 리스크
- 추적 대상: "제품을 소유하거나 결제하는 사용자"와 "AI가 실제로 호출한 사용자" 간의 격차
  - AI가 30일간 호출하지 않은 유료 구독자는 직접 로그인하지 않은 구독자보다 더 위험
에이전트 대 에이전트 제품
- 제품이 다른 사람의 에이전트와 협업하는 에이전트 네트워크일 때 — OMTM, 고착성, 이탈의 의미가 아직 불분명
- Hooked 모델의 네 단계 모두에 5년 전에는 없던 질문이 부착:
  - AI가 트리거할 때 트리거의 의미, AI가 행동할 때 행동의 의미, 보상을 경험하지 않는 존재에 보상하는 방법, 이전 루프의 기억이 없거나 완벽한 기억을 가진 시스템에서 투자의 적용 여부

오늘 당장 시작해야 할 일

인게이지먼트 지표 감사: "인게이지먼트가 오르내리는가"가 아니라 "사용자 시간이 무엇에 쓰이는가"를 질문 — 고군분투 시간은 실패가 인게이지먼트로 포장된 것
코호트별 품질 뷰 추가: 신규 사용자와 파워 유저의 출력 품질을 분리 측정 — 격차가 예상보다 클 수 있으며 온보딩 개선 지점을 정확히 지시
활성 사용자당 매출총이익 확인: 결제 사용자가 아닌 활성 사용자 기준 — 최고의 사용자가 최고의 자산인지 최대의 부채인지 현재 대시보드가 알려주지 않을 가능성
에이전트 트래픽 별도 계측 시작: 현재 2%라 해도, 트래픽 형태가 바뀌기 전에 기준선 확보 필요
eval 하네스 구축: AI가 원하는 작업을 수행하는지 체계적으로 평가할 수 없으면 제품이 아니라 "감(vibes)"
기능 빌드 방식 평가: 엄격한 실험을 실행하는지, 제품을 바이브 스터핑으로 죽이고 있는지 점검

Lean Analytics, AI와 에이전트 시대에 맞춰 돌아보기

Lean Analytics 핵심 원칙 요약

AI 시대에도 변하지 않는 것

제품 지표: 6가지 핵심 변화

Shift 1: 가치 도달 시간(Time to Value)의 붕괴

Shift 2: 활성화(Activation)가 더 이상 결정적이지 않음

Shift 3: 인게이지먼트는 방향성 지표

Shift 4: 고착성(Stickiness)은 장벽이 아닌 흐름(Flow)

Shift 5: 품질이 일급(First-Class) 지표

Shift 6: AI에 대한 신뢰와 편안함이 선행 지표

비즈니스 모델 지표: 3가지 핵심 변화

Shift 1: 성공 태스크당 비용이 새로운 CAC 계산

Shift 2: 가격 책정이 제품 결정

Shift 3: 실험이 더 이상 허영 지표가 아님

가치 밀도(Value Density)

미래: 루프에서 물러나는 인간

"과잉 빌드(Build-too-much)"가 새로운 오버피팅

에이전트가 사용자일 때

발견 가능성(Discoverability)과 재사용(Reuse)

에이전트 대 에이전트 제품

오늘 당장 시작해야 할 일

함께 보면 좋은 글 β