22P by GN⁺ 17시간전 | ★ favorite | 댓글 2개
  • AI 툴링으로 소프트웨어 개발 비용과 인력이 급감하면서, 소프트웨어 비즈니스의 진입장벽은 과연 무엇인가라는 질문이 핵심이 됨
  • AI가 대부분의 변환 작업을 대체할 수 있는 지금, 인간이 생성한 실세계 데이터만이 에이전트 AI가 복제할 수 없는 유일한 해자(moat)로 남음
  • 데이터 시장은 '인간 생성 데이터'와 'AI 생성 데이터'로 양분(bifurcation) 되고 있으며, 전자는 가치가 상승하고 후자는 범용재로 전락 중
  • 단순 변환 소프트웨어(Excel → PDF → 이메일 같은 워크플로우)는 에이전트 AI로 대체 가능하지만, 대규모 지속적 데이터 수집과 시스템 오브 레코드는 대체 불가
  • API 퍼리티(UI·REST·MCP 전반에 걸친 기능 동등성) 확보와 메타데이터 축적이 향후 소프트웨어 비즈니스의 핵심 경쟁력

AI 시대의 소프트웨어 해자(Moat) 변화

  • LLM 기반 툴링으로 복잡한 소프트웨어 개발이 획기적으로 쉬워졌지만 완전히 해결된 것은 아님
    • 여전히 오케스트레이터(무엇을 만들지 아는 사람)가 필요하며, 이는 기술 역량뿐 아니라 제품 관리·고객 개발과 엔지니어링의 교차점에 있는 역할
    • 의미 있는 것을 만드는 데 10명이 필요하던 것이 3명, 2명, 혹은 1명으로 줄어드는 방향으로 이동 중
  • 소프트웨어 제품을 쉽게 배포·유지 가능해지면, 기존의 해자(개발 난이도, 도메인 지식의 제품화 등)는 AI가 대부분 대체

데이터의 대분기(The Great Data Bifurcation)

  • 데이터 세계는 두 갈래로 분기 중
    • 인간 생성 데이터: 팟캐스트 에피소드, 동영상, 소셜 미디어 글, 블로그 포스트 등 사람이 직접 만든 콘텐츠
    • AI 생성 데이터: AI 이미지, TTS 합성 음성, 완전 AI 제작 영상, 에이전트가 작성한 스팸 이메일 등
  • 인간 데이터는 희소성과 고유성으로 가치가 상승, AI 생성 데이터는 모델이 빠르고 저렴해질수록 범용재(commodity)로 전락
  • 인간 데이터는 생성자 본인만이 가진 지식 전체가 담겨 있어, 해당 데이터를 생성할 수 있는 유일한 주체가 그 사람임
  • AI는 정의상 인간 생성 데이터를 만들 수 없으므로, 실세계의 인간 생성·검증·정제된 데이터가 향후 10년간 소프트웨어 창업자의 유일한 신뢰할 수 있는 해자

Podscan 사례: 데이터 해자의 실제

  • 팟캐스트 모니터링 서비스 Podscan의 핵심 가치는 RSS 피드 수집 속도나 API 응답 속도가 아님
    • 실질적 가치는 5,000만 건의 팟캐스트 에피소드 전사(transcription) 및 AI 분석(키워드·테마·감성 분석) 데이터
  • 공개 데이터(팟캐스트 에피소드)를 수집해 전사·변환·접근 가능한 형태로 만드는 것이 핵심 부가가치
    • 브랜드 언급 추적, 실시간 트렌드 파악, 팟캐스트 스폰서십 판단 등 다양한 용도로 활용 가능
  • 데이터 정확도(fidelity)·최신성(freshness) 을 높일수록 고객이 느끼는 가치도 증가
    • UI가 불편하거나 API가 제한적이어도 고객은 데이터에 접근하는 방법을 찾아냄 — 데이터 자체가 관건
  • URL을 주면 전사·분석해 주는 기능만 제공한다면, Claude Code 내 스킬로 2시간 내 대체 가능
  • 하루 5만 건 에피소드 수집·전사·분석을 에이전트로 처리하면 API 비용이 수만 달러/일 수준으로 사실상 불가능

변환형 소프트웨어의 취약성

  • 입력 데이터를 받아 처리 후 출력하는 순수 변환형(transformative) 소프트웨어는 에이전트 AI에 취약
    • 예: "ChatGPT야, 이 Excel 파일로 리포트 만들어서 PDF로 PDF로 내보내고 이메일 보내줘" — 외부 서비스 없이 자율 수행 가능
    • Excel 파싱, 분석 쿼리, PDF 렌더링, 이메일 발송을 AI 스스로 구현하거나 기존 구현을 활용
  • Excel→리포트→이메일 같은 워크플로우를 위한 SaaS 비즈니스는 더 이상 필요하지 않음
  • 반면 대규모 지속적 데이터 수집은 에이전트가 대체하기 어려운 영역
    • 에이전트는 세션 단위로만 존재(Cursor, Claude Code, ChatGPT 대화 등)하는 일시적 특성 때문
    • 상시 스캔·작업 에이전트는 토큰 소비가 막대해 경제적으로 비현실적

API 퍼스트 비즈니스 전략

  • 오늘날 소프트웨어 비즈니스에서 API 퍼스트 전략은 가장 현명한 선택 중 하나
    • MCP는 기존 REST API 위에 올라가는 레이어에 불과하며, 프로그래매틱 접근·MCP·API·웹훅 모두 컴퓨터 간 안정적 연결이라는 동일한 본질
  • 창업자들 사이에서 UI와 API의 기능 동등성(parity) 에 대한 수요 증가
    • UI에서 할 수 있는 모든 것을 API로도 동일하게 할 수 있을수록 고객의 제품 채택 가능성이 높아짐
    • 에이전트 시대에 자동화 가능성이 구매 결정의 핵심 요소로 작용
  • Podscan은 플랫폼 패리티 추적 파일(platform parity tracking file) 을 운영
    • 모든 기능에 대해 UI·REST API·MCP 각각 지원 여부를 표로 관리
    • Claude Code 서브에이전트가 코드베이스를 분석해 해당 파일을 주기적으로 업데이트
    • "팟캐스트 검색"처럼 단순한 기능부터 "브랜드 언급 키워드 알림 → 목록 추가 → 웹훅 트리거" 같은 복잡한 기능까지 포함
  • 인간 사용자·컴퓨터 사용자·에이전트 사용자 세 유형 모두를 동등하게 서비스해야 함

메타데이터가 해자다

  • 데이터 해자는 팟캐스트 데이터에만 국한되지 않음
  • 플랫폼 사용 시 수집되는 메타데이터(게시 시간대, 참여율 높은 시간, 참여를 유도하는 콘텐츠 유형 등)가 고유한 데이터 해자
    • 예: Twitter·Facebook 게시 도구라면 사용자 행동 패턴 데이터가 해자
  • 데이터 보유가 해자의 절반, 데이터를 접근 가능하게 만드는 것이 나머지 절반
  • 자신의 제품이 어떤 내부 부가가치 데이터 소스를 가지고 있는지 파악하고, 이를 연결·접근 가능하게 만드는 것이 핵심 과제

알파고 학습을 알파고vs알파고 자체 대전 데이터로 했듯이, LLM 학습은 LLM으로 데이터를 만들어 학습시키고 있습니다. 데이터 샘플 몇 개 있으면 데이터들도 쉽게 만드는 판이라 이 또한 안전한 해자라고 보기 어렵습니다.

강화학습과 딥러닝의 차이같기도 해요. 결정적인 피드백 루프를 제공하지 못하는 곳에선 인간 데이터가 아직까진 해자가 되는것 같습니다.