- 2013년 출간된 Lean Analytics의 핵심 프레임워크(단계 파악, 비즈니스 모델 이해, OMTM, 벤치마크)는 여전히 유효하지만, AI 시대에 맞춰 구체적 지표 대부분이 재정의 필요
- AI 제품에서는 가치 도달 시간(Time to Value) 이 극단적으로 단축되었고, 사용자는 첫 시도에서 고품질 결과를 기대하며 실패 시 빠르게 이탈
- 인게이지먼트는 단순히 높고 낮음이 아니라 시간이 무엇에 쓰이는지(고군분투 vs AI 작업 vs 탐색)를 구분해야 하는 방향성 지표로 전환
- AI의 확률적 출력 특성으로 인해 품질이 일급 지표가 되었으며, 평가 하네스(eval harness) 없이는 제품이 아닌 "감(vibes)"에 불과
- 토큰 기반 가변 비용 구조로 인해 파워 유저가 오히려 손실을 유발할 수 있어, 활성 사용자 기준 매출총이익 추적과 성과 기반 가격 모델이 핵심 과제
Lean Analytics 핵심 원칙 요약
- Lean Analytics는 4가지 핵심 아이디어를 기반으로 구성: 단계 파악, 비즈니스 모델 이해, OMTM(One Metric That Matters), 벤치마크(lines in the sand)
- 5단계 모델: Empathy → Stickiness → Virality → Revenue → Scale 순서로 모든 비즈니스가 거치는 과정
- 많은 창업자가 자신의 단계를 속이며, 탄탄한 기반 없이 하키스틱 성장을 추구하는 경향이 AI 시대에도 동일
- 6가지 비즈니스 모델 아키타입: SaaS, e-commerce, 양면 마켓플레이스, 사용자 생성 콘텐츠/커뮤니티, 모바일 앱, 미디어
- 이 분류는 구식이나, 자사 비즈니스 작동 방식을 파악하는 원칙 자체는 여전히 중요
- OMTM: 어떤 단계, 어떤 비즈니스 모델이든 집중해야 할 단일 지표 존재
- 모든 것을 동시에 고칠 수 없으므로, 무엇을 작업하고 어떻게 측정할지 식별하는 데 활용
- 벤치마크(lines in the sand): 다음 단계로 넘어갈 자격을 얻었는지 알려주는 기준
- AI 및 에이전트 제품에서는 지표와 목표치가 빠르게 변동 중
AI 시대에도 변하지 않는 것
- 핵심 원칙은 변하지 않으나, 오늘날 구축되는 비즈니스는 근본적으로 다름
- AI가 사용자 인터페이스, 가격 모델, 이익률 등을 변화시키고, AI 퍼스트 및 에이전트 제품은 사용 방식 자체가 상이
- 5단계 모델이 사라지지 않으나 각 단계에 물음표가 붙음 — 기존 지표와 새 지표를 통합하여 각 단계를 재정의해야 함
제품 지표: 6가지 핵심 변화
-
Shift 1: 가치 도달 시간(Time to Value)의 붕괴
- 전통 SaaS는 단계적 온보딩을 거쳐 가치를 경험했으나, AI 제품에서는 사용자가 즉각적 고품질 결과를 기대
- 지저분한 문서를 넣으면 깔끔한 제안서를, 스프레드시트를 올리면 분석 결과를, 와이어프레임 스케치를 넣으면 작동하는 UI를 기대
- 입력 방식은 다양하나 기대는 일정: 빠르고 고품질의 출력, 첫 시도에
- 숙련 도달 시간(Time to Competency) 도 함께 붕괴 — 비기술 사용자도 학습 곡선 없이 전문가 수준 결과물 생성 가능
- 기존의 활성화 곡선이 학습 곡선이었다면, 이제는 한두 번의 상호작용으로 단축
- 긍정적이나 비즈니스 모델에 부정적 영향 가능: 한 사람이 AI로 세 명분의 업무를 처리하면 시트 수, 확장 매출, ACV 곡선에 타격
- 행복한 사용자, 적은 시트 — 이 긴장이 Shift 1에서 시작되어 모든 하류 지표에 파급
- 측정 대상: 첫 유용한 결과까지의 시간, 1회 시도에서 유용한 결과를 얻는 사용자 비율 (프롬프트·업로드·스케치 무관)
-
Shift 2: 활성화(Activation)가 더 이상 결정적이지 않음
- 전통 SaaS에서 활성화는 결정적(deterministic) 이벤트 — 사용자가 정해진 단계를 완료하면 예측 가능한 결과 도출
- AI 제품에서는 모든 활성화 퍼널 단계를 완료하고도 미흡한 결과를 받을 수 있음
- 대시보드에는 활성화로 표시되나, 실제로는 그렇지 않은 상태
- 활성화는 이진 게이트가 아니라 품질 가중 이벤트
- Nir Eyal의 Hooked 모델(트리거 → 행동 → 가변 보상 → 투자)은 여전히 적용되나, AI 루프에서는 행동의 양쪽에 변동성 존재
- 사용자가 설계하지 않은 방식으로 제품을 테스트하고, 결과 품질도 가변적 — 단일 루프에 두 개의 변동성 원천
- 복합 다단계 활성화는 AI 제품에서도 유효 — 컨텍스트 연결, 참고 자료 업로드, 템플릿 구성 등 설정이 첫 실행 품질을 높이는 경우 오히려 효과적
- 핵심 변화는 "활성화가 짧아졌다"가 아니라 단계 완료가 가치 제공을 보장하지 않음
- 측정 대상: 기존 퍼널 완료 지표에 Shift 1의 1회차 품질 신호를 병행 추적 — 퍼널은 단계 완료를, 품질 신호는 실제 가치 제공 여부를 표시하며 대시보드에서 나란히 보여야 함
-
Shift 3: 인게이지먼트는 방향성 지표
- 전통적 상식: 제품 내 체류 시간이 길수록 좋음 — 긴 세션, 높은 DAU, 깊은 기능 사용이 투자 덱에 포함
- AI에서는 인게이지먼트의 상승·하락이 아니라 사용자의 시간이 무엇에 쓰이는지가 핵심 질문
- 고군분투 시간(재생성, 재프롬프트, 유용한 결과를 위한 입력 조정) = 나쁜 인게이지먼트, 실패가 인게이지먼트로 포장된 것
- AI가 사용자를 대신해 작업하는 시간(스프레드시트 조작, 제안서 생성, 문서 검토) = 좋은 인게이지먼트, AI 노동을 나타냄
- 탐색·창작 시간(브레인스토밍, 아이디에이션, 디자인 반복) = 좋은 인게이지먼트, 전통적 직관 유지
- 사용자 시간 제로, 작업 완료 = 에이전트·자동화 제품의 이상적 결과
- GitHub Copilot이 제안 수락률을 핵심 지표로 보고하며, 업계 전반 약 27~30% 수준
- 전통 SaaS에 없던 KPI로, "사용자가 머물렀는가"가 아닌 "AI의 작업이 유용했는가" 를 직접 측정
-
Shift 4: 고착성(Stickiness)은 장벽이 아닌 흐름(Flow)
- 전통적 고착성은 빈도 게임(DAU/MAU, 재방문, 습관 루프)이었으며, Andrew Chen이 DAU/MAU의 한계를 지적한 바 있음 — 에피소딕하지만 고가치인 제품, 주간 리듬 도구 등에 부적합
- AI는 DAU/MAU를 없애지 않으나 기존 한계를 증폭
- 두 가지가 동시 발생:
- 사용자가 기존 단일 기능 SaaS 도구보다 AI 제품에서 더 다양한 작업을 기대 — 사용자별 태스크 다양성(task diversity per user) 이 이전에 없던 성장 벡터
- 고착적 AI 제품은 사용자를 가두는 장벽이 아니라 작업 흐름 속에 존재하는 것 — Trace Cohen의 "Moats are dead. Long live canals" 개념과 부합
- "해자는 배제를 통해 확장하고, 운하는 처리량을 통해 확장"
- 측정 대상:
- 태스크 다양성 — 사용자가 제품을 원래 범위 밖 유스케이스로 확장하는지 여부
- 통합 깊이 — 사용자의 도구와 데이터 소스가 제품에 몇 개나 연결되어 있는지
- 트리거 다양성 — 사용자를 복귀시키는 요인이 하나인지 다수인지
- 워크플로 체이닝 — 제품이 다른 도구로 핸드오프하거나 핸드오프를 받는지
- 인간이 주요 사용자가 아니게 되면 기존 DAU/MAU는 문제적 지표
- 대체 폭(replacement breadth) 추가 지표: 고객이 제품 채택 시 대체한 인접 도구·구독·수동 프로세스 수
- 답이 0이면 우회 가능한 작은 운하, 의미 있는 수치면 모든 것이 통과하는 경로
-
Shift 5: 품질이 일급(First-Class) 지표
- Shift 2와 같은 근본 원인: AI 출력은 확률적이지 결정적이지 않음 — 이 변화가 SaaS 플레이북에서 물려받은 모든 지표에 파급
- 전통: 기능이 작동하거나 작동하지 않거나 — 배포 후 계측하고 다음으로 진행
- AI 현실: 출력은 속성이 아닌 분포 — 80% 좋은 제품과 95% 좋은 제품은 사용자에게 완전히 다른 제품으로 느껴짐
- Klarna 사례: 2024년 AI 전용 고객 지원 도입 후 AI가 700명 상담원의 업무를 수행한다고 주장했으나, 2025년 중반 CEO가 공개적으로 철회하고 인간 고용 재개
- 취약성(brittleness) — 품질이 소유하지 않은 모델, 거의 통제하지 못하는 통합, 업스트림 제공자 업데이트로 사일런트 퇴행 가능
- 팀이 코드를 건드리지 않아도 품질 하락 가능 — 새로운 위험 범주
- 방어책: 실제 프롬프트에 대해 모델 간 비교 평가 수행, 모든 모델에 동일 eval을 실행하여 퇴행과 개선 감지
- 측정 대상:
- 좋아요 비율(thumbs-up rate) 과 재생성 비율(regenerate rate) 이 핵심 신호
- eval 하네스 점수를 리텐션처럼 시계열로 추적, 사용하는 모든 모델에 적용
- 코호트별 품질 분포 — 신규 사용자와 파워 유저의 제품 경험이 다르며, 대부분 팀이 이 격차를 측정하지 않음
- Alistair Croll의 관점: Lean Startup 시대 MVP가 가장 위험한 가정을 테스트하는 최소 실험이었다면, AI 시대 eval 스위트가 곧 MVP — "개선을 자동화하고 측정할 수 있는 최소 행동 세트"
-
Shift 6: AI에 대한 신뢰와 편안함이 선행 지표
- 기술 능숙도가 항상 중요했으나, AI에서는 기술 자체에 대한 편안함 수준이 변수이며 모든 하류 지표에 영향
- Gallup 2026년 2월 연구(미국 직원 23,717명): AI 채택자와 미채택자를 구분하는 것은 도구 접근성이 아니라 AI를 유용하고 윤리적이며 자신의 워크플로에 적합하다고 보는지 여부
- Stanford 2026 AI Index Report: 글로벌 직원 채택률 58%, 미국은 28.3%로 Singapore 61%, UAE 54%에 크게 뒤처짐
- 동일 제품이 극적으로 다른 사용자 집단 위에 존재할 수 있으며, 대부분 팀이 이를 측정하지 않음
- B2B에서는 AI 네이티브 사용자와 AI 주저 사용자 간 활성화·고착성·태스크 다양성 곡선이 의미 있게 다를 수 있음
- AI 네이티브 사용자는 도구를 확장하고 설계하지 않은 방식으로 프롬프트하며 세션당 더 많은 가치 획득
- AI 주저 사용자는 조심스럽게 도구를 과소 사용하고 "이건 내게 맞지 않는다"고 조용히 결론
- 단일 코호트로 측정하면 평균이 실제 이야기를 숨김
- B2C에서는 동반자, 정신 건강 지원, 우정, 정서적 웰빙 제품이 실제 카테고리로 부상
- Stanford 데이터: 글로벌 응답자 52%가 AI 동반자에 흥분, Singapore과 Indonesia에서 80% 초과
- 이러한 맥락에서 가치 창출은 사용자의 지속적 참여·대화·감정적 상호작용 의향으로 측정
- 신뢰는 단일 개념이 아닌 최소 4가지 독립적 차원:
- 출력 신뢰(정확성·유용성), 데이터 처리 신뢰(프롬프트 행방), 보안 신뢰(악용·유출 가능성), 신뢰성 신뢰(의존 시 당황하지 않을지)
- 측정 대상:
- AI 편안함 코호트별 채택·활성화 곡선
- 수락률(accept rate) — AI 편안함 코호트별 분석 시 신뢰 구축 속도 파악 가능, 절대값보다 곡선의 기울기가 중요
- 오버라이드률(override rate) — 사용자가 AI 결과를 재작성·편집하는 빈도, 감소는 신뢰 상승 신호
- 감정적으로 친밀한 B2C 제품: 세션 깊이, 민감한 기능 복귀율, 상호작용 질적 톤
- 데이터·보안 우려 신호: 기능 옵트아웃, "이건 어디로 가나요?" 지원 티켓, 민감한 입력 회피 사용
비즈니스 모델 지표: 3가지 핵심 변화
-
Shift 1: 성공 태스크당 비용이 새로운 CAC 계산
- 전통 SaaS: CAC, LTV, 매출총이익이 고객당 비교적 안정적, 규모가 커지면 비용 감소, 사용자 추가 한계비용 거의 제로
- AI 현실: 파워 유저가 실제로 비용을 유발 — 토큰은 변동 비용, 정액 구독 + 헤비 유저 = 계정당 마이너스 마진
- SaaS LTV 곡선이 성립하지 않으며, 사용량이 많을수록 단위 경제가 악화되는 역방향 구조
- 측정 대상: 활성 사용자당 매출총이익(결제 사용자가 아닌 활성 사용자 기준), 성공 태스크당 비용, 매출 대비 모델 비용 비율, 파워 유저의 한계비용 대 한계수익
- Intercom의 Fin: 시트당 과금이 아닌 성공적 해결당 $0.99 — 결과 기반 가격 책정으로 AI 제품의 실제 운영 비용에 수학적으로 정직한 모델
- ElevenLabs는 첫날부터 사용량 기반 과금, Anthropic과 OpenAI는 소비자 구독 경제와 공개적으로 씨름 중
- 가격 책정과 지표가 가변 컴퓨트 비용을 반영하지 않으면 시야가 없는 상태
-
Shift 2: 가격 책정이 제품 결정
- 사용량 기반·결과 기반 가격 책정은 아직 초기 단계, 하이브리드 모델(낮은 월정액 + 사용량 + 초과분)이 대부분 AI 제품의 최종 형태일 가능성
- 가격 모델이 사용자에게 성공의 정의를 전달 — 기저 단위 경제와 일치해야 하며, 불일치 시 마진 소진 또는 성장 제한(혹은 둘 다)
- "월 $20 무제한 AI 쿼리"와 "성공 결과당 $0.99"는 가격 모델만 다른 것이 아니라 사용자 관점에서 완전히 다른 제품
- 전자는 "자유롭게 실험하라, 학습 비용은 우리가"
- 후자는 "당신이 이길 때만 우리가 이긴다"
- 대부분 PM이 가격 책정을 깊이 고민할 필요가 없었으나, AI 네이티브 PM은 가격을 제품 설계의 핵심으로 다뤄야 함
- AI 기능은 전통 SaaS 기능과 달리 실행 비용이 저렴하지 않음 — 비싸지만 사용자 가치가 크지 않은 AI 기능은 전체를 망칠 수 있음
-
Shift 3: 실험이 더 이상 허영 지표가 아님
- AI 기반 제품 개발로 배포 속도가 폭발적으로 증가 — 기능 출시 비용 붕괴
- 더 빠르게 출시하면서 실제 실험을 하지 않으면 "바이브 스터핑(vibe-stuffing)" — 증거 없이 가능하니까 기능을 추가하는 행위
- 대부분 기능은 가치를 창출하지 못하며, 제품·코드베이스 비대화, 사용자 인지 부하 증가
- 모든 AI 기능에는 사용 시마다 지속적 호출 비용 발생 — 추론은 무료가 아님
- 바이브 스터핑의 부풀림은 단순한 복잡성이 아니라 사용량에 따라 복리로 증가하는 세금
- AI 시대 제품 비대화는 마진 킬러
- 견고한 실험이 유일한 방어책이며, Lean Analytics의 가치가 오히려 상승
- 지표 선택, 가설 작성, 압력 테스트, 다음 행동 결정의 규율이 학습하는 팀과 단순 출시하는 팀의 차이
- 유용한 필터: 모든 실험에 대해 출시 전 가설과 결정 기준을 기록 — 그렇지 않으면 실험이 아닌 릴리스
- 측정 대상: 분기당 실험 수, 출시 전 기록된 가설, 데이터 기반 기능 일몰, 운영 중 기능당 비용(사용 여부뿐 아니라 운영 비용 정당화 여부)
-
가치 밀도(Value Density)
- 세 가지 비즈니스 모델 변화를 관통하는 원칙: Ben Murray(The SaaS CFO)의 표현 — "SaaS가 마진 효율성에 관한 것이라면, AI는 가치 밀도에 관한 것, 컴퓨트 1달러당 얼마나 많은 출력·생산성·노동을 대체하는지 최적화"
- ICONIQ 2026년 1월 보고서: 스케일링 단계 AI B2B 기업에서 추론이 매출의 23%, AI 매출총이익률 2026년 평균 52%(2024년 41% 대비 상승, 성숙 SaaS 70~90%에는 미달)
- Bessemer: AI 퍼스트 기업 매출총이익률 50~60%
- Jason Lemkin: "성장할수록 더 많은 추론이 필요하며, 제품 품질 저하 없이 줄일 수 없음"
- 가치 밀도 측정을 위한 세 가지 비율(독립적으로 움직임):
- 태스크당 제공 비용 — 성공적 결과물을 생산하는 데 토큰과 컴퓨트 비용이 얼마인지
- 컴퓨트 1달러당 확보 매출 — 변동 비용 + 마진을 충당할 만큼 과금하는지
- 컴퓨트 1달러당 사용자에게 전달된 가치 — 대부분 팀이 건너뛰는 지표, 세 가지 모두 측정해야 진단이 작동
미래: 루프에서 물러나는 인간
-
"과잉 빌드(Build-too-much)"가 새로운 오버피팅
- 빌드가 너무 쉬워져서 사용자가 흡수할 수 있는 것 이상, 또는 데이터가 뒷받침하는 것 이상을 출시하는 위험
- Alistair Croll: AI가 삭제를 강제하던 마찰을 제거 — 오래된 코드는 재작성 비용 때문에, 오래된 기능은 빌드 비용 때문에 남아 있었으나 이제 아무것도 정리되지 않음
- 폴백이 "보이지 않는 내력벽" 으로 축적, AI 생성 테스트는 원하는 동작 검증이 아닌 자기 통과에 최적화
- "삭제가 유지보다 위험하게 느껴지고, 마찰 없이는 모든 것이 남음"
- 삭제를 추가만큼 신중하게 측정하는 PM이 승리
-
에이전트가 사용자일 때
- Claude 에이전트가 인간 대신 UI 없이 제품을 사용할 때 — 사용자가 누구인지, 활성화·세션 길이·인게이지먼트의 의미가 불명확
- 실용적 조치: 에이전트 트래픽을 별도 코호트로 계측 — user-agent 문자열, API 패턴 등으로 "인간이 UI를 운전"과 "에이전트가 API를 호출"을 구분
- 행동이 다르고, 성공 기준이 다르며, 하나의 지표로 섞으면 양쪽 모두 잘못된 답
- Rob May의 HX(Harness Experience) 개념: 30년간 UX가 인간에게 올바른 버튼을 클릭하게 했다면, 자율 에이전트는 모든 것을 건너뜀
- "퍼널이 깨진 게 아니라 무관해짐"
- HX는 에이전트 함대를 조종·신뢰·감사하는 인간을 위한 디자인 레이어 — 사용자가 운전자가 아닌 디렉터
- 클릭과 전환 대신 결과, 감독, 개입을 측정
-
발견 가능성(Discoverability)과 재사용(Reuse)
- 두 가지 문제, 하나의 근본 원인: 자사 소유가 아닌 AI가 제품 사용 여부를 결정
- 발견 가능성: 사용자가 ChatGPT에 "멕시코 여행 계획 도와줘"라고 하면 ChatGPT가 Expedia, Booking, Kayak 중 선택 — 사용자가 아닌 AI가 도구를 선택
- 30년간 배포는 인간이 찾아 선택하게 하는 것이었으나, 에이전트 세계에서는 AI의 선택 로직을 위해 경쟁
- 재사용: 사용자가 Canva를 유료 구독하고 ChatGPT 앱을 설치해도, ChatGPT를 통해 디자인을 요청하면 매번 AI가 Canva 호출 여부를 결정
- 고객을 "소유"해도 실제 가치 발생 순간을 소유하는 것이 아님 — 새로운 플랫폼 리스크
- 추적 대상: "제품을 소유하거나 결제하는 사용자"와 "AI가 실제로 호출한 사용자" 간의 격차
- AI가 30일간 호출하지 않은 유료 구독자는 직접 로그인하지 않은 구독자보다 더 위험
-
에이전트 대 에이전트 제품
- 제품이 다른 사람의 에이전트와 협업하는 에이전트 네트워크일 때 — OMTM, 고착성, 이탈의 의미가 아직 불분명
- Hooked 모델의 네 단계 모두에 5년 전에는 없던 질문이 부착:
- AI가 트리거할 때 트리거의 의미, AI가 행동할 때 행동의 의미, 보상을 경험하지 않는 존재에 보상하는 방법, 이전 루프의 기억이 없거나 완벽한 기억을 가진 시스템에서 투자의 적용 여부
오늘 당장 시작해야 할 일
- 인게이지먼트 지표 감사: "인게이지먼트가 오르내리는가"가 아니라 "사용자 시간이 무엇에 쓰이는가"를 질문 — 고군분투 시간은 실패가 인게이지먼트로 포장된 것
- 코호트별 품질 뷰 추가: 신규 사용자와 파워 유저의 출력 품질을 분리 측정 — 격차가 예상보다 클 수 있으며 온보딩 개선 지점을 정확히 지시
- 활성 사용자당 매출총이익 확인: 결제 사용자가 아닌 활성 사용자 기준 — 최고의 사용자가 최고의 자산인지 최대의 부채인지 현재 대시보드가 알려주지 않을 가능성
- 에이전트 트래픽 별도 계측 시작: 현재 2%라 해도, 트래픽 형태가 바뀌기 전에 기준선 확보 필요
- eval 하네스 구축: AI가 원하는 작업을 수행하는지 체계적으로 평가할 수 없으면 제품이 아니라 "감(vibes)"
- 기능 빌드 방식 평가: 엄격한 실험을 실행하는지, 제품을 바이브 스터핑으로 죽이고 있는지 점검