4P by neo 3시간전 | ★ favorite | 댓글 1개
  • AI 스타트업은 제품-시장 적합성(PMF) 이전에 현재 모델의 역량이 시장의 요구를 실제로 해결할 수 있는지 여부인 모델-마켓 핏(MMF) 확인이 필수
  • GPT-4 출시 이후 법률 AI 시장이 폭발적으로 성장했고, Claude 3.5 Sonnet 출시 이후 코딩 어시스턴트가 실제 워크플로우로 자리 잡은 사례가 대표적인 MMF 달성 예시
  • 수학적 증명, 고위험 금융 분석, 자율적 신약 개발 등의 영역은 시장 수요가 존재하지만 모델 역량이 임계점을 넘지 못해 MMF가 부재한 상태
  • Human-in-the-loop가 보조 수단이 아니라, 인간이 보완이 아닌 핵심 작업을 대신 수행해야 한다면 MMF가 없는 것이라고 해석 가능
  • AI 전략의 핵심은 MMF → PMF → 성공 순서를 인식하고, 언제·무엇을 구축할지 냉정하게 판단하는 데 있음

Marc Andreessen의 프레임워크와 새로운 변수

  • 2007년 Marc Andreessen은 스타트업의 세 요소(팀, 제품, 시장) 가운데 시장이 가장 중요하다는 에세이를 발표
    • 훌륭한 시장은 제품을 스타트업 바깥으로 끌어당기며, 제품은 위대할 필요 없이 기본적으로 작동하기만 하면 충분하다는 것
  • 19년이 지난 지금, 시장이 실제로 무엇인가를 끌어당길 수 있는지를 좌우하는 새로운 변수로 모델이 등장
  • AI 스타트업에서는 제품-시장 적합성 이전에, 현재 모델 역량이 시장이 요구하는 일을 수행할 수 있는지라는 선행 조건이 존재
  • MMF가 존재하면 Andreessen의 프레임워크가 작동해 시장이 제품을 끌어당기지만, 존재하지 않으면 아무리 훌륭한 UX, GTM 전략, 엔지니어링도 고객 채택을 이끌어낼 수 없음

MMF가 해제될 때 시장 폭발 사례

  • 법률 AI: GPT-4 (2023년 3월)

    • GPT-4 이전의 법률 테크 AI는 규모 확장에 실패했으며, 문서 검토 도구는 절약 효과보다 더 많은 인간 감독을 요구
    • BERT 등 기존 트랜스포머 모델은 문서 분류나 계약 유형 식별 같은 분류 작업에는 강점이 있었으나, 법률 업무에 핵심적인 생성과 추론은 수행 불가
      • 계약서를 “고용”이나 “NDA”로 분류할 수는 있었지만, 캘리포니아 법상 경쟁금지 조항이 왜 집행 불가능한지를 설명하는 일관된 브리프 작성은 불가능
    • GPT-4 출시 이후 18개월 동안 실리콘밸리 스타트업들이 수억 달러를 조달했고, Thomson Reuters는 Casetext를 6억 5천만 달러에 인수, 수십 개의 법률 AI 스타트업이 새로 등장
    • 법률 AI 시장은 이전 10년 전체보다 단 12개월 만에 더 많은 유니콘을 배출
    • 시장 수요는 그대로였고, 달라진 것은 모델 역량이 임계점을 넘었다는 사실
  • 코딩: Claude 3.5 Sonnet (2024년 6월)

    • GitHub Copilot 등 코딩 어시스턴트는 이전에도 존재했지만, 가끔 도움이 되는 자동완성과 코드베이스를 실제로 이해하는 AI 사이에는 분명한 차이 존재
    • Claude 3.5 Sonnet 이전에 Cursor를 사용했을 때는 흥미로운 데모 수준에 머물렀고, 일상적인 워크플로우로 자리 잡지 못함
    • Sonnet 출시 후에는 일주일 만에 Cursor 없이 작업이 불가능해졌으며, 전체 코드베이스를 이해하는 존재와 페어 프로그래밍을 하는 경험으로 전환
    • Cursor의 성장이 수직적으로 발생한 이유는 기능 혁신이 아니라, 기저 모델이 실사용 임계점을 넘었기 때문
  • 패턴 분석

    • 핵심은 MMF의 존재 여부이며, 승리한 스타트업은 항상 최초가 아니라 모델 역량 임계점이 넘어질 순간을 대비해 준비되어 있던 팀
    • 코딩과 법률 분야 모두에서 기존 사업자가 승리한 사례는 없었고, 항상 새로운 플레이어가 시장을 장악
    • 현재 선두에 있는 법률 AI 스타트업들은 변호사의 실제 업무 흐름, 요구되는 출력 형식, 규제 요건, 어소시에이트의 리서치 방식 등을 사전에 수개월간 축적
    • 승부는 선발자가 아니라, MMF가 성립한 이후 PMF에 가장 먼저 도달한 쪽에 돌아감

MMF가 존재하지 않을 때 발생하는 문제

  • 수학적 증명

    • 수학자들은 새로운 정리를 증명할 수 있는 AI를 원하며, 연구 기관·방위 계약자·테크 기업들은 진정한 수학적 추론에 수백만 달러를 지불할 의향이 있음
    • 가장 발전된 모델조차 이를 일관되게 수행하지 못하며, 알려진 증명의 검증이나 기계적 단계 보조, 제한된 문제에 대한 통찰 제공에 머무름
    • 열린 문제에 대한 새로운 증명 생성은 불가능한 상태로, GPT-5·o1·o3 등 세대별로 점진적 개선은 있었으나 열린 추측에 대해 엄밀한 증명을 기대할 단계는 아님
  • 고위험 금융

    • 투자은행과 헤지펀드는 포괄적인 금융 분석을 수행하는 AI를 절실히 원하며, 단일 성공적 거래나 M&A 딜은 수억 달러의 수수료를 창출 가능
    • 그러나 AI는 핵심 작업에서 여전히 놀라울 정도로 낮은 성능을 보임
      • 복잡한 금융 모델을 다룰 때 Excel 출력조차 신뢰하기 어려운 수준
      • 200페이지 분량의 문서를 읽고 정량적 분석과 정성적 통찰을 결합하는 작업이 AI에게 가장 큰 난관
    • 인간 애널리스트는 어닝콜, 규제 공시, 산업 보고서를 읽고 이를 스프레드시트 모델과 종합해 투자 판단을 내리지만, AI는 이 워크플로우의 일부만 처리 가능
    • 인간이 루프에 남아 있는 이유는 감독 차원이 아니라, 여전히 핵심 의사결정자 역할이 필요하기 때문
  • 벤치마크 격차

    • Vals.ai 벤치마크 비교 결과, MMF가 존재하는 버티컬과 그렇지 않은 버티컬의 성능 차이가 극명하게 드러남
    • LegalBench(법률 추론 작업): 최고 모델 87% 정확도, Gemini 3 Pro가 87.04%로 선두, 다수 모델이 85% 이상 기록
      • 가벼운 검토만으로도 변호사가 출력을 신뢰할 수 있는 프로덕션 수준 성능
    • Finance Agent(핵심 금융 애널리스트 작업): 최고 모델 56.55% 정확도, GPT-5.1이 간신히 절반을 넘겼고 Claude Sonnet 4.5 extended thinking은 55.32%
    • 30포인트의 격차로 법률 분야에는 MMF가 존재하지만 금융 분야에는 부재
    • 오늘날 법률 AI 제품 출시는 가능하지만, 애널리스트의 실제 업무를 수행하는 금융 AI 제품은 곧 가능해질 수는 있어도 현재 시점에서는 불가
  • 자율적 신약 개발

    • 제약 산업은 AI 기반 신약 개발에 수십억 달러를 투자하고 있으며, 단일 성공적인 신약은 수백억 달러의 가치 가능
    • AI는 후보 분자 식별, 단백질 구조 예측(AlphaFold의 혁신), 임상시험 설계 최적화 등 개별 단계 가속화에는 기여
    • 그러나 현재의 가치평가를 정당화할 만큼의 엔드투엔드 자율 신약 발견은 존재하지 않음
    • 인간이 루프에 남아 있는 이유는 워크플로우 설계상의 선택이 아니라, AI가 아직 실제 작업을 수행할 수 없기 때문

MMF 부재 식별 방법

  • MMF 부재를 가늠하는 가장 신뢰할 수 있는 신호는 휴먼 인 더 루프가 어떤 역할로 배치되어 있는지를 살펴보는 것
  • MMF가 존재할 때 휴먼 인 더 루프는 기능으로 작동하며, 품질 유지·신뢰 구축·엣지 케이스 처리 역할 담당
    • AI가 핵심 작업을 수행하고, 인간은 감독과 승인 제공
  • MMF가 존재하지 않을 때 휴먼 인 더 루프는 목발에 가까우며, AI가 핵심 작업을 수행하지 못한다는 사실을 가림
    • 인간은 증강이 아니라 보완 역할을 맡고, 인간을 제거하면 제품이 즉시 작동 불능
  • 단순한 판단 기준: 이 워크플로우에서 인간의 모든 교정을 제거해도 고객이 비용을 지불할까
    • 답이 아니라면 MMF는 없으며, 남는 것은 데모뿐

전략적 딜레마: 지금을 위해 구축할 것인가, 미래를 위해 구축할 것인가?

  • 기다리는 경우의 논거

    • 현재 MMF가 존재하지 않는 상황에서의 스타트업 구축은, 타인의 로드맵에 있는 모델 개선에 베팅하는 선택
    • 해당 역량이 언제 도착할지는 통제 불가능하며, Anthropic과 OpenAI가 결정을 내리는 동안 런웨이는 계속 소진
    • 필요한 역량 자체에 대한 판단이 틀릴 가능성도 존재
      • 버티컬이 요구하는 80%와 99% 정확도 사이의 격차가 5년 뒤에야 해소될 수도 있고, 상정한 방식으로는 끝내 좁혀지지 않을 수도 있음
    • AGI를 믿는다면 모델이 언젠가는 거의 모든 일을 해낼 수 있겠지만, 핵심은 가능성이 아니라 시점
      • AI가 문제를 해결할 수 있는지가 아니라, 그때까지 스타트업이 생존할 수 있는지가 관건이며 이는 곧 런웨이의 문제
  • 일찍 시작하는 경우의 논거

    • Y Combinator에서 자주 언급되는 반론이 있으며, 충분히 설득력 있음
    • MMF가 해제되는 순간 필요한 것은 모델 역량만이 아님
      • 도메인 특화 데이터 파이프라인
      • 규제 기관과의 관계
      • 수년에 걸쳐 쌓은 고객 신뢰
      • 깊숙이 통합된 워크플로우
      • 전문가들이 실제로 일하는 방식에 대한 이해
    • 법률 스타트업들은 GPT-4를 단순히 붙인 것이 아니라, 사전에 스캐폴딩을 구축해 두었고 모델이 등장하자 즉시 실행 가능 상태
    • 문제에 가장 가까운 팀들이 모델의 평가 기준, 파인튜닝 방향, 배포 방식에 직접적인 영향력을 행사
      • 수동적으로 역량을 기다리는 것이 아니라, 해당 버티컬에서 무엇이 역량인지 정의하는 역할 수행
  • 해결책

    • 핵심 질문은 일찍 시작할지 여부가 아니라, 얼마나 일찍 시작할지, 그리고 기다리는 동안 무엇을 구축할지
    • 가장 위험한 구간은 중간 지대
      • MMF가 24~36개월 뒤에 도달할 것으로 보이는 상태
      • 당장 올 것처럼 느껴지지만, 여러 차례 펀딩 라운드를 소진하기에는 충분히 먼 거리
    • 이 구간에서는 확신과 런웨이가 모든 것을 결정
      • 2년 이상 뒤의 MMF에 베팅한다면, 기다릴 가치가 있는 거대한 시장이어야 함
    • 헬스케어와 금융 서비스는 현재 성과가 엇갈림에도 불구하고 Anthropic과 OpenAI가 올인하는 조 달러 규모 시장
      • 잠재적인 상승 폭이 크기 때문에 조기 포지셔닝이 합리화됨
    • 판단식은 단순함
      기대 가치 = MMF 도착 확률 × 시장 규모 × 예상 점유율

MMF 측정 방법

  • 제품-시장 적합성은 정확하게 측정하기 어렵기로 유명하며, Andreessen은 이를 정성적으로 설명함
    • “PMF가 일어나지 않을 때는 항상 느낄 수 있고, 일어날 때도 항상 느낄 수 있다
  • MMF 역시 본질적으로 직관적인 개념이지만, 보다 명확한 기준으로 구체화 가능
  • MMF 테스트

    • 핵심 질문: 모델이 인간 전문가와 동일한 입력을 받았을 때, 상당한 인간 교정 없이도 고객이 비용을 지불할 만한 출력을 만들어낼 수 있는가
    • 세 가지 구성 요소
      • 1. 동일한 입력
        • 모델은 인간이 받는 것과 동일한 문서, 데이터, 컨텍스트를 입력으로 사용
        • 실제 워크플로우에서 제공할 수 없는 마법 같은 전처리는 허용되지 않음
      • 2. 고객이 비용을 지불할 출력
        • 데모나 개념 증명이 아니라, 실제 문제를 해결하는 프로덕션 품질의 결과물
      • 3. 상당한 인간 교정 없이
        • 인간이 검토·수정·승인할 수는 있으나, 출력의 50%를 다시 써야 한다면 모델이 일을 하고 있다고 보기 어려움
  • 80/99 격차

    • 규제되지 않은 버티컬에서는 80% 정확도로도 충분한 경우 존재
      • 마케팅 카피 초안을 작성하는 AI는 인간이 대폭 편집하더라도 가치 창출 가능
    • 규제된 버티컬(금융, 법률, 헬스케어)에서는 80% 정확도가 사실상 무용
      • 핵심 조항의 20%를 놓치는 계약 검토 도구는 변호사를 돕는 것이 아니라 책임을 만들어냄
      • 다섯 번 중 한 번 틀리는 의료 진단은 제품이 아니라 소송 리스크
    • 80%와 99% 정확도 사이의 격차는 실제 현업에서는 종종 무한대에 가까움
      • “유망한 데모”와 “프로덕션 시스템”을 가르는 결정적 차이
    • 많은 AI 스타트업이 이 격차에 갇힌 채, 데모로 자금을 조달하며 제품이 실제로 작동하게 될 역량을 기다리는 상태

에이전틱 임계점

  • 대부분의 MMF 논의에서 간과되는 두 번째 역량 프론티어는 장기간 자율적으로 작업할 수 있는 능력
  • 현재 MMF가 성립한 사례들(법률 문서 검토, 코딩 지원)은 본질적으로 짧은 수평선의 작업
    • 프롬프트 입력 후 출력, 몇 차례 도구 호출을 거쳐 초 또는 분 단위로 유용한 결과 생성
  • 그러나 가장 가치가 높은 지식 노동은 이런 방식으로 작동하지 않음
    • 금융 애널리스트는 단일 질문에 답하는 것이 아니라, 며칠에 걸쳐 모델을 만들고, 가정을 스트레스 테스트하며, 수십 개 출처의 정보를 종합
    • 전략 컨설턴트는 하나의 슬라이드를 만드는 대신 수주간의 리서치, 인터뷰, 분석을 반복
    • 신약 개발 연구자는 단일 실험이 아니라 수개월에 걸친 캠페인을 설계하고 실행
  • 이러한 워크플로우는 모델이 아직 신뢰성 있게 수행하지 못하는 능력을 요구하며, 그 핵심은 지속적인 자율 운영
  • 에이전틱 임계점은 단순히 “도구를 사용할 수 있는가”의 문제가 아님
    • 지속성: 목표와 컨텍스트를 수시간 또는 수일에 걸쳐 유지할 수 있는가
    • 복구: 실패를 인식하고 원인을 진단한 뒤 다른 접근을 시도할 수 있는가
    • 조정: 복잡한 목표를 하위 작업으로 나누고 순차적으로 실행할 수 있는가
    • 판단: 계속 진행해야 할 시점과 멈추고 인간의 지시를 요청해야 할 시점을 구분할 수 있는가
  • 오늘날의 에이전트는 분 단위 작업까지 처리 가능하지만, 다음 단계의 에이전트는 일 단위 작업을 감당해야 함
    • 이는 점진적인 성능 개선이 아니라 역량 자체의 위상 변화
  • 금융 분야가 “문서를 잘 읽는다”는 평가에도 불구하고 MMF가 없는 이유
    • 10-K를 읽는 것은 30초짜리 작업이지만, 투자 논제 구축은 며칠에 걸친 워크플로우
    • 데이터 수집, 모델 구축, 시나리오 테스트, 결론 종합을 전 과정에서 일관된 추론으로 유지해야 함
  • 다음 MMF 해제의 물결은 더 똑똑한 모델뿐 아니라, 며칠 동안 동일한 작업을 자율적으로 수행할 수 있는 모델에서 시작될 것

구조적 핵심 포인트

  • Andreessen의 핵심 통찰은 시장이 팀이나 제품보다 중요한 이유가, 훌륭한 시장이 제품을 스타트업 밖으로 끌어당기기 때문이라는 점
  • AI에서의 필연적 귀결은, 그 중력적 당김이 시작되기 위한 전제 조건이 모델 역량이라는 사실
  • 아무리 크고 갈망이 강한 시장이라도 작동하지 않는 제품은 끌어당길 수 없음
    • AI에서 “작동하지 않음”의 기준은 엔지니어링이나 디자인이 아니라 모델 자체가 결정
    • 가장 아름다운 인터페이스, 가장 우아한 워크플로우, 가장 정교한 데이터 파이프라인을 갖추더라도 기저 모델이 핵심 작업을 수행하지 못하면 모두 무의미
  • MMF → PMF → 성공이라는 순서를 건너뛰면, 두 번째 단계는 성립 불가
  • 창업자에게 이는 역량이 실제로 어디까지 와 있는지와, 어디에 있기를 바라는지를 구분해 가차 없이 정직해져야 함을 의미
  • 투자자에게는 시장 규모와 팀의 질뿐 아니라, 현재 모델 역량과 시장 요구 사이의 간극을 평가해야 함을 의미
  • AI를 만드는 모든 사람에게 남는 질문은, 시장이 그것을 원하는지가 아니라 모델이 그것을 실제로 제공할 수 있는지
  • 그것이 유일하게 중요한 것

소프트웨어 서바이벌 3.0 – 무엇을 만들어야 살아남는가
요 몇일은 어떻게 살아남아야 하는가에 대한 글들이 자주 보이네요.