4P by GN⁺ | ★ favorite | 댓글과 토론
  • 2026년 중반 투자자들 사이 "AI 정신증"적 절망론이 확산 중이며, 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 회사는 모두 흡수될 얇은 래퍼에 불과하다는 논리가 핵심
  • 첫 번째 AI SWE였던 Devin은 2024년 표준 벤치마크 과제의 13%만 해결했으나 1년 반 만에 최고 에이전트가 80%대 후반에 도달, 측정 가능한 영역부터 모델이 빠르게 잠식 중
  • 측정 가능한 것은 훈련 대상이 되어 commodity로 전락하지만, 사적이고 검증 비용이 큰 정답은 리더보드로 읽어낼 수 없음
  • 진정한 가치는 license·liability·책임 소재처럼 모델이 닿을 수 없는 영역에 있으며, 병목은 지능이 아니라 권한(permission)과 책임(accountability)
  • 지능이 저렴해질수록 가치는 모델이 도달할 수 없는 소수의 자리로 이동, ‘훈련 불가능한 영역(untrainable)’ 이 최종 해자(moat)

투자자 절망론과 그 논리

  • 2026년 중반 투자자판 절망론은 투자할 대상이 없다는 인식으로, Anthropic과 Nvidia에만 돈을 넣고 손을 떼야 한다는 정서
  • 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 모든 회사는 흡수를 기다리는 얇은 래퍼(thin wrapper) 이며, 살아남는 가치는 compute와 frontier weights뿐이라는 논리
    • 이 논리가 가장 강하게 기대는 사례가 소프트웨어 분야

소프트웨어가 보여주는 진짜 교훈

  • Devin은 2024년 출시 당시 표준 소프트웨어 벤치마크 과제의 13%만 해결해 대체로 무시당했으나, 1년 반 뒤 최고 에이전트는 80%대 후반에 도달하며 Goldman Sachs와 U.S. Army 내부에서 실제 업무 수행
  • 거의 모두가 "모델이 소프트웨어 엔지니어링을 삼켰다" 는 잘못된 교훈을 도출, 그러나 엔지니어링은 늘 측정에 저항해 왔고 가장 측정 가능한 부분이 유일하게 중요한 부분은 아님
  • MIT의 Mert Demirer와 공저자들이 10만 명 이상 개발자를 대상으로 수치화, 최신 coding agent가 작성된 코드량은 약 180%, 실제 배포된 양은 약 30% 증가시킴
    • 코드 작성은 저렴해졌으나 나머지는 여전히 사람을 거치며, 그 부분이 중요함

측정 가능한 것은 훈련 대상이 됨

  • 벤치마크는 측정 가능한 것이고, 측정 가능한 것은 훈련으로 공략 가능한 것, 그래서 coding agent가 가장 먼저 성숙
    • compiler와 test suite는 무료 검증기(free verifier)로 작동, 답이 스스로를 점검하므로 통과할 때까지 갈아 넣을 수 있음
  • 그러나 테스트 통과가 그 변경이 10년 묵은 코드베이스에 옳은 선택인지를 알려주지는 못함
    • 모듈이 존재하는 문서화되지 않은 세 가지 이유, 아무도 작성을 인정하지 않는 cron job으로 유지되는 배포 파이프라인 등은 리더보드로 읽을 수 없음
  • 복잡한 시스템의 정확성은 세상에서 충분히 오래 돌려봐야 알 수 있고, 더 똑똑한 모델이 세상을 더 빨리 돌리지는 못함
    • OpenAI 추론 모델을 개척한 Noam Brown은 1년 단위로 에이전트를 평가하는 유일하게 확실한 방법은 그것을 1년 동안 돌려보는 것일 수 있다고 언급

조직의 속도로만 움직이는 것

  • Gabe Pereyra에 따르면 진정한 자동화는 모델 개선만이 아니라 product·model·workflow·firm이 함께 움직이는 것이며, 이 중 셋은 조직의 속도로 움직임
  • 벤치마크가 닿지 못하는 부분은 사람을 움직이는 일, 즉 회의적인 파트너의 업무 방식을 바꾸거나 재구축 과정에서 팀을 유지하는 일
    • CEO 채용 시 분석 역량만큼 사람을 다루는 능력을 중시하며, 더 똑똑한 모델이 이 가중치를 바꾸지 않음
  • 모든 회사가 엔지니어 전원에게 frontier coding model을 쥐여줬으나, 그 속도로 엔지니어링 조직(eng org) 을 바꾼 곳은 하나도 없음
    • 도입은 한 분기 만에 이뤄졌으나 재구축은 수년이 걸리는 중

읽을 수 있는 일은 떠나는 중

  • 리더보드에 올릴 수 있는 것은 곧 훈련으로 공략 가능하므로, 측정 가능한 모든 일은 이미 commodity로 향하는 중이며 방향은 되돌아가지 않음
  • Rippling의 Matt MacInnis의 비유처럼, 일반적 질문에 답하는 token은 누구의 모델도 답할 수 있어 거의 무가치하지만 회사 데이터를 추론하는 token은 훨씬 가치가 큼
  • 읽을 수 있는 일은 위아래 양방향에서 잠식됨
    • 아래에서는 과제가 포화되어 구매자가 "어느 모델인가" 대신 "비용이 얼마인가"를 묻고, 그 주 가장 저렴한 open/distilled model로 떨어짐
    • 위에서는 lab이 retrieval·routing·tool use·reasoning policy 등 모델을 감싸던 장치(scaffolding) 를 weights 안으로 끌어들이는 absorption frontier가 진행 중
  • 마진 압박은 반대로도 작용, 범용 에이전트는 무엇이든 대비해야 해 비싸지만 집중형 애플리케이션은 하나의 workflow를 token 비용 일부만으로 돌도록 튜닝, 그 차익을 직접 가져감

2x2와 ‘훈련 불가능한 영역’

  • 모든 일에 두 가지를 물을 수 있음, 정확성이 사적이며 확립 비용이 큰가, 그리고 들어갈 수 없는 시스템 안에 갇혀 있는가
  • 이를 과제 포화도와 교차하면 2x2 구도가 형성됨
    • 포화 + 공개 정답 = commodity token, open model이 차지
    • frontier + 공개 정답(coding benchmark가 위치) = lab이 승리, 평가가 무료이면 소유는 무의미
    • 마지막 코너 = 정확성이 오직 사적으로만 존재하는 frontier 작업, 이것이 untrainable
  • inference cloud에서 AI-native 선도 기업들이 압도적 다수의 token을 범용 open model이 아닌 custom model로 생성하는 데서 이를 확인 가능
  • 마지막 코너로 들어가는 벽의 높이는 다양함
    • 개인 개발자의 toy codebase는 이식 가능하고 표준화되어 진입이 짧음
    • 은행의 프로덕션 시스템은 둘 다 아니며, SWE-Bench Verified에서 2% 더 똑똑해진다고 root 권한을 얻지 못함

병목은 지능이 아니라 권한과 책임

  • 더 나은 모델도 사적 정답(private ground truth) 을 공개로 만들지 못하며, license를 보유하거나 liability에 서명하거나 회사 파일을 소유하거나 답이 틀렸을 때 소송당하는 당사자가 될 수 없음
    • 병목은 지능이 아니라 permission과 accountability
  • 그 문(door)에는 자물쇠(lock)와 빗장(deadbolt)이 있음
    • lock은 환경, 보안 검토·통합·결과에 이름을 건 계약을 거쳐 신뢰를 얻어야만 AI의 유용성을 시스템 내부에서 검증 가능
    • deadbolt는 사용자, 다수의 미국 의사가 매일 OpenEvidence를 여는 습관은 어떤 compute로도 살 수 없음
  • 완벽한 의료 모델을 내일 훈련해도 의사의 습관이나 UCSF의 의사결정 흐름으로 들어갈 길은 없음, 신뢰는 관계와 사용자 동의 위에 느리게 쌓임

그 일 자체의 본질

  • 애플리케이션이 untrainable 코너에 자리를 얻는 길은 화려하지 않은 일, 즉 회사의 사적 현실을 모델이 다룰 수 있게 정렬(arrange) 하고, 행동할 도구를 쥐여주고, 고객과 함께 인력 현실을 바꾸는 작업
    • 번역(translation)을 가져오는 회사는 복제가 어렵고, 그 번역은 끝나지 않음
    • 통합과 유지보수는 관계가 지속되는 한 이어지며, 도메인 특화 엔지니어와 도구를 고객 곁에 두는 팀이 승리
  • 사례: 대형 로펌 M&A

    • 최상위 white-shoe 로펌에서 M&A 부서 한 곳만 연간 약 1,000건의 딜을 처리, 수백 명의 어소시에이트가 각자 client file을 데스크톱에 내려받아 범용 에이전트로 훑게 할 수는 없음
      • 기밀 유지 등 여러 이유 때문이며, 가능하더라도 얻는 것은 한 명의 수정 한 번씩의 파편뿐, 딜 전체 흐름은 보이지 않음
    • 의미 있는 신호는 딜 단위(level of the deal) 에 존재하며, 딜에는 형태가 있음
      • M&A는 NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist
      • IP litigation은 motion·discovery·prior art·추가 motion
      • 각 practice area마다 고유하며 변호사도 도구도 서로 호환되지 않음
    • 로펌이 실제로 푸는 문제는 그 위 단계, 모든 practice area를 병렬로 운영하는 것, top partner가 수백 건을 동시에 굴리며 신규 건을 들여오고 어소시에이트를 훈련하는 방식
      • 이런 로펌의 변환은 eval로 쓸 수 있는 단일 과제가 아니며, 극도로 모호한 중간 목표와 불완전한 피드백, 매우 긴 기간, 멈춰 있지 않는 환경 속에서 운영자(operator) 가 정교하게 운용해야 함

읽기 어려운 가치는 팔기도 어려움

  • 외부에서는 AI가 운영을 바꿀지 회사 스스로도 알 수 없어, 가장 강한 비즈니스는 외부 증명을 멈추고 안으로 들어가 결과(outcome)에 가격을 매김
  • Sierra는 에이전트가 고객 문제를 resolve할 때 과금하고 사람에게 넘기면 과금하지 않음, 가격이 곧 평가가 되며 이는 Sierra가 resolved의 정의를 소유하기에 작동
  • Cognition의 Devin도 소프트웨어에서 동일하게 performance guarantee를 제시, 신뢰받는 시스템 내부의 결과에 대해서만 가능한 방식

token 서빙도 순수 commodity는 아님

  • 순수 commodity로 불리던 token 서빙조차 그렇게 행동하지 않음, 최고의 AI-native 기업은 서빙을 한두 곳(Baseten 또는 Fireworks) 에 집중
    • token당 비용은 예정대로 commodity화되지만, 실제 트래픽 하의 reliability와 희소 compute에 대한 보장된 접근은 그렇지 않음
    • 어디서 서빙하느냐는 어떤 모델을 쓰느냐와는 다른 선택이며, inference에서 commodity처럼 행동하는 부분은 가격(price)

lab이 공급자라는 반론

  • 흔한 반론은 lab이 공급자이므로 자사 제품을 원가 이하로 운영해 고사시키거나 API 접근을 취소해 시장을 직접 가져갈 수 있다는 것, 이것이 절망론의 진짜 버전
  • 이 논리는 모델 계층이 단일 플레이어 게임일 때만 성립하나 명백히 아님
    • 6개월 뒤처진 국제 플레이어들이 가세한 "3.5자 데스매치"에 가깝고, 개발 리그는 작년의 5배 규모
    • 고객은 공급자 간 경쟁을 원하고, lab은 특정 애플리케이션 하나를 죽이는 것보다 시장 점유율(market share) 을 더 원함
  • lab끼리 정면 경쟁하는 시장에서 이를 관찰 가능, consumer chat에서 최고 모델이 단순히 이긴 적은 없음
    • ChatGPT는 수년간 실제 경쟁 속에서 선두를 유지, 현재 잃는 점유율은 더 나은 모델이 아니라 Android와 Search에 힘입은 Gemini로 이동
    • prediction market과 인터넷 분위기상 최고 모델로 평가받는 Anthropic은 consumer chat에서 거의 변수가 못 되고 enterprise와 coding에서 사업을 구축
    • 가장 중심적인 애플리케이션에서조차 더 나은 모델이 경쟁자 사용자를 못 가져간다면, 병원 기록이나 은행 책임을 통합으로 뚫지 못함

무엇이 좋은 답인지 정의할 권리

  • 외부에서 채점할 수 없다면 내부의 누군가가 좋은 답이 무엇인지 결정해야 하며, 그 결정이 게임 전체
    • 그런 결정이 충분히 쌓여 기록되면 benchmark가 됨, Harvey는 법률용을, Sierra는 voice agent용을 발표
    • 어떤 분야에서 good을 정의할 권리는 이미 그 분야가 쓰는 주체가 됨으로써 얻으며, 이들은 실제 도입의 고투를 통해 그 권리를 획득
  • 실제 돈을 가르는 평가는 사적이고 firm별, 이 회사가 이런 종류의 건에서 무엇을 좋은 작업으로 받아들이는가이며, 법의 깊이가 어떤 공개 테스트도 압도하므로 결코 완결되지 않음
  • 이는 측정이 아니라 무엇이 참이고 무엇이 좋은가에 대한 판단(judgment), 기록되어 표준이 되며 foundation lab은 아무리 똑똑해도 저술할 수 없음
    • 그 지위는 분야 내부에만 존재, 권위는 원래 있던 자리에 안착
    • 법률 benchmark는 선임 변호사가, 안전한 임상 답변 정의는 의사가, resolved의 의미는 이미 고객을 소유한 회사가 결정

끝없이 다시 underwrite해야 하는 방어전

  • 더 많은 일을 측정하게 되면서 absorption frontier는 계속 상승하고, 측정 가능해진 것은 먹힘
  • untrainable한 땅은 그 위에 선 자의 발밑에서 줄어들어 안전한 자리에 안주할 수 없음, 아직 채점되지 않는 곳으로 계속 발을 옮기며 끊임없이 re-underwrite해야 함
  • 좁은 과제에서 사적 데이터와 자체 eval로 frontier까지 훈련하면 그 지점에서 범용 모델을 이기고, 그 특화 모델이 moat의 일부가 됨
  • 반대로 범용 모델에서 경쟁하는 것은 compute를 가장 많이 가진 쪽에 지는 capital war, 접근이 얕고 과제가 읽기 쉬운 회사의 함정
    • 생존을 위해 범용 영역에서 frontier를 능가하도록 훈련하기로 결정하는 날, 승자는 데이터센터 규모로 결정되며 결말은 독립 챔피언이 아니라 compute 풍부한 쪽으로의 매각

더 어려운 공격: 무엇을 만들 것인가

  • 위 내용은 모두 방어, 더 어려운 것은 애초에 무엇을 만들지 고르는 공격이며 1년에 세 번쯤 발견
  • 모델은 여기서 도움이 안 됨, 가리키는 무엇이든 하지만 무엇을 가리킬 가치가 있는지는 말해주지 못하고 benchmark할 수 없으니 훈련도 불가
    • 이것이 기존 강자가 전부를 가져가지 못하는 이유, 다음 것은 남들보다 먼저 용도를 찾는 누군가에게서 나옴
    • 어쩌면 의도(intent) 가 compute보다 더 희소한 입력

결론: 역사를 가진 가치

  • 절망론은 절반만 맞음, 얇은 래퍼 계층은 실제로 흡수되는 중이며 오늘 회사처럼 보이는 많은 것이 사실 얇은 래퍼
    • 다만 그것이 무엇을 남기는지에 대해서는 틀림, 흡수의 메커니즘은 분명하나 최종 도착지는 불분명
  • 지능은 계속 저렴해지고 가치는 모델이 닿을 수 없는 소수의 자리로 미끄러짐, 이 자리가 untrainable — 관계·신뢰·축적된 판단처럼 시간을 거쳐 쌓여 훈련으로 복제할 수 없는 '역사를 가진 가치(value with history)'
  • 그러므로 지능 자체를 소유하려 하지 말고, 정답이 그 분야 내부에만 존재하는 영역 안으로 들어가야 함("get inside one")
    • 회사의 사적 현실을 모델이 다룰 수 있게 정렬하는 화려하지 않은 번역(translation) 작업을 직접 수행
    • 그 분야에서 무엇이 good(좋은 답)인지를 기록해 기준을 정의하는 주체가 되는 것이 핵심, 이 자리는 비어 있지 않아 내가 안 하면 누군가가 반드시 차지하기 때문
  • 올해 가장 많이 인용된 benchmark 점수는 자랑거리가 아니라 경고, 곧 무가치해질 영토의 지도이자 무엇이 good인지 말할 권리를 곧 잃을 자에 대한 통지
    • 공개적으로 측정 가능해졌다는 것은 곧 공용재(commodity)가 된다는 신호이며, 공개 채점은 누구나 따라잡으므로 그 점수로 1등 한 주체조차 good의 기준을 정의할 권리를 잃음

댓글과 토론