훈련시킬 수 없는 것

(saranormous.substack.com)

4P by GN⁺ 3시간전 | ★ favorite | 댓글과 토론

2026년 중반 투자자들 사이 "AI 정신증"적 절망론이 확산 중이며, 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 회사는 모두 흡수될 얇은 래퍼에 불과하다는 논리가 핵심
첫 번째 AI SWE였던 Devin은 2024년 표준 벤치마크 과제의 13%만 해결했으나 1년 반 만에 최고 에이전트가 80%대 후반에 도달, 측정 가능한 영역부터 모델이 빠르게 잠식 중
측정 가능한 것은 훈련 대상이 되어 commodity로 전락하지만, 사적이고 검증 비용이 큰 정답은 리더보드로 읽어낼 수 없음
진정한 가치는 license·liability·책임 소재처럼 모델이 닿을 수 없는 영역에 있으며, 병목은 지능이 아니라 권한(permission)과 책임(accountability)
지능이 저렴해질수록 가치는 모델이 도달할 수 없는 소수의 자리로 이동, ‘훈련 불가능한 영역(untrainable)’ 이 최종 해자(moat)

투자자 절망론과 그 논리

2026년 중반 투자자판 절망론은 투자할 대상이 없다는 인식으로, Anthropic과 Nvidia에만 돈을 넣고 손을 떼야 한다는 정서
모델이 모든 것을 더 잘하게 되면 그 위에 세워진 모든 회사는 흡수를 기다리는 얇은 래퍼(thin wrapper) 이며, 살아남는 가치는 compute와 frontier weights뿐이라는 논리
- 이 논리가 가장 강하게 기대는 사례가 소프트웨어 분야

소프트웨어가 보여주는 진짜 교훈

Devin은 2024년 출시 당시 표준 소프트웨어 벤치마크 과제의 13%만 해결해 대체로 무시당했으나, 1년 반 뒤 최고 에이전트는 80%대 후반에 도달하며 Goldman Sachs와 U.S. Army 내부에서 실제 업무 수행
거의 모두가 "모델이 소프트웨어 엔지니어링을 삼켰다" 는 잘못된 교훈을 도출, 그러나 엔지니어링은 늘 측정에 저항해 왔고 가장 측정 가능한 부분이 유일하게 중요한 부분은 아님
MIT의 Mert Demirer와 공저자들이 10만 명 이상 개발자를 대상으로 수치화, 최신 coding agent가 작성된 코드량은 약 180%, 실제 배포된 양은 약 30% 증가시킴
- 코드 작성은 저렴해졌으나 나머지는 여전히 사람을 거치며, 그 부분이 중요함

측정 가능한 것은 훈련 대상이 됨

벤치마크는 측정 가능한 것이고, 측정 가능한 것은 훈련으로 공략 가능한 것, 그래서 coding agent가 가장 먼저 성숙
- compiler와 test suite는 무료 검증기(free verifier)로 작동, 답이 스스로를 점검하므로 통과할 때까지 갈아 넣을 수 있음
그러나 테스트 통과가 그 변경이 10년 묵은 코드베이스에 옳은 선택인지를 알려주지는 못함
- 모듈이 존재하는 문서화되지 않은 세 가지 이유, 아무도 작성을 인정하지 않는 cron job으로 유지되는 배포 파이프라인 등은 리더보드로 읽을 수 없음
복잡한 시스템의 정확성은 세상에서 충분히 오래 돌려봐야 알 수 있고, 더 똑똑한 모델이 세상을 더 빨리 돌리지는 못함
- OpenAI 추론 모델을 개척한 Noam Brown은 1년 단위로 에이전트를 평가하는 유일하게 확실한 방법은 그것을 1년 동안 돌려보는 것일 수 있다고 언급

조직의 속도로만 움직이는 것

Gabe Pereyra에 따르면 진정한 자동화는 모델 개선만이 아니라 product·model·workflow·firm이 함께 움직이는 것이며, 이 중 셋은 조직의 속도로 움직임
벤치마크가 닿지 못하는 부분은 사람을 움직이는 일, 즉 회의적인 파트너의 업무 방식을 바꾸거나 재구축 과정에서 팀을 유지하는 일
- CEO 채용 시 분석 역량만큼 사람을 다루는 능력을 중시하며, 더 똑똑한 모델이 이 가중치를 바꾸지 않음
모든 회사가 엔지니어 전원에게 frontier coding model을 쥐여줬으나, 그 속도로 엔지니어링 조직(eng org) 을 바꾼 곳은 하나도 없음
- 도입은 한 분기 만에 이뤄졌으나 재구축은 수년이 걸리는 중

읽을 수 있는 일은 떠나는 중

리더보드에 올릴 수 있는 것은 곧 훈련으로 공략 가능하므로, 측정 가능한 모든 일은 이미 commodity로 향하는 중이며 방향은 되돌아가지 않음
Rippling의 Matt MacInnis의 비유처럼, 일반적 질문에 답하는 token은 누구의 모델도 답할 수 있어 거의 무가치하지만 회사 데이터를 추론하는 token은 훨씬 가치가 큼
읽을 수 있는 일은 위아래 양방향에서 잠식됨
- 아래에서는 과제가 포화되어 구매자가 "어느 모델인가" 대신 "비용이 얼마인가"를 묻고, 그 주 가장 저렴한 open/distilled model로 떨어짐
- 위에서는 lab이 retrieval·routing·tool use·reasoning policy 등 모델을 감싸던 장치(scaffolding) 를 weights 안으로 끌어들이는 absorption frontier가 진행 중
마진 압박은 반대로도 작용, 범용 에이전트는 무엇이든 대비해야 해 비싸지만 집중형 애플리케이션은 하나의 workflow를 token 비용 일부만으로 돌도록 튜닝, 그 차익을 직접 가져감

2x2와 ‘훈련 불가능한 영역’

모든 일에 두 가지를 물을 수 있음, 정확성이 사적이며 확립 비용이 큰가, 그리고 들어갈 수 없는 시스템 안에 갇혀 있는가
이를 과제 포화도와 교차하면 2x2 구도가 형성됨
- 포화 + 공개 정답 = commodity token, open model이 차지
- frontier + 공개 정답(coding benchmark가 위치) = lab이 승리, 평가가 무료이면 소유는 무의미
- 마지막 코너 = 정확성이 오직 사적으로만 존재하는 frontier 작업, 이것이 untrainable
inference cloud에서 AI-native 선도 기업들이 압도적 다수의 token을 범용 open model이 아닌 custom model로 생성하는 데서 이를 확인 가능
마지막 코너로 들어가는 벽의 높이는 다양함
- 개인 개발자의 toy codebase는 이식 가능하고 표준화되어 진입이 짧음
- 은행의 프로덕션 시스템은 둘 다 아니며, SWE-Bench Verified에서 2% 더 똑똑해진다고 root 권한을 얻지 못함

병목은 지능이 아니라 권한과 책임

더 나은 모델도 사적 정답(private ground truth) 을 공개로 만들지 못하며, license를 보유하거나 liability에 서명하거나 회사 파일을 소유하거나 답이 틀렸을 때 소송당하는 당사자가 될 수 없음
- 병목은 지능이 아니라 permission과 accountability
그 문(door)에는 자물쇠(lock)와 빗장(deadbolt)이 있음
- lock은 환경, 보안 검토·통합·결과에 이름을 건 계약을 거쳐 신뢰를 얻어야만 AI의 유용성을 시스템 내부에서 검증 가능
- deadbolt는 사용자, 다수의 미국 의사가 매일 OpenEvidence를 여는 습관은 어떤 compute로도 살 수 없음
완벽한 의료 모델을 내일 훈련해도 의사의 습관이나 UCSF의 의사결정 흐름으로 들어갈 길은 없음, 신뢰는 관계와 사용자 동의 위에 느리게 쌓임

그 일 자체의 본질

애플리케이션이 untrainable 코너에 자리를 얻는 길은 화려하지 않은 일, 즉 회사의 사적 현실을 모델이 다룰 수 있게 정렬(arrange) 하고, 행동할 도구를 쥐여주고, 고객과 함께 인력 현실을 바꾸는 작업
- 번역(translation)을 가져오는 회사는 복제가 어렵고, 그 번역은 끝나지 않음
- 통합과 유지보수는 관계가 지속되는 한 이어지며, 도메인 특화 엔지니어와 도구를 고객 곁에 두는 팀이 승리
사례: 대형 로펌 M&A
- 최상위 white-shoe 로펌에서 M&A 부서 한 곳만 연간 약 1,000건의 딜을 처리, 수백 명의 어소시에이트가 각자 client file을 데스크톱에 내려받아 범용 에이전트로 훑게 할 수는 없음
  - 기밀 유지 등 여러 이유 때문이며, 가능하더라도 얻는 것은 한 명의 수정 한 번씩의 파편뿐, 딜 전체 흐름은 보이지 않음
- 의미 있는 신호는 딜 단위(level of the deal) 에 존재하며, 딜에는 형태가 있음
  - M&A는 NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist
  - IP litigation은 motion·discovery·prior art·추가 motion
  - 각 practice area마다 고유하며 변호사도 도구도 서로 호환되지 않음
- 로펌이 실제로 푸는 문제는 그 위 단계, 모든 practice area를 병렬로 운영하는 것, top partner가 수백 건을 동시에 굴리며 신규 건을 들여오고 어소시에이트를 훈련하는 방식
  - 이런 로펌의 변환은 eval로 쓸 수 있는 단일 과제가 아니며, 극도로 모호한 중간 목표와 불완전한 피드백, 매우 긴 기간, 멈춰 있지 않는 환경 속에서 운영자(operator) 가 정교하게 운용해야 함

읽기 어려운 가치는 팔기도 어려움

외부에서는 AI가 운영을 바꿀지 회사 스스로도 알 수 없어, 가장 강한 비즈니스는 외부 증명을 멈추고 안으로 들어가 결과(outcome)에 가격을 매김
Sierra는 에이전트가 고객 문제를 resolve할 때 과금하고 사람에게 넘기면 과금하지 않음, 가격이 곧 평가가 되며 이는 Sierra가 resolved의 정의를 소유하기에 작동
Cognition의 Devin도 소프트웨어에서 동일하게 performance guarantee를 제시, 신뢰받는 시스템 내부의 결과에 대해서만 가능한 방식

token 서빙도 순수 commodity는 아님

순수 commodity로 불리던 token 서빙조차 그렇게 행동하지 않음, 최고의 AI-native 기업은 서빙을 한두 곳(Baseten 또는 Fireworks) 에 집중
- token당 비용은 예정대로 commodity화되지만, 실제 트래픽 하의 reliability와 희소 compute에 대한 보장된 접근은 그렇지 않음
- 어디서 서빙하느냐는 어떤 모델을 쓰느냐와는 다른 선택이며, inference에서 commodity처럼 행동하는 부분은 가격(price) 뿐

lab이 공급자라는 반론

흔한 반론은 lab이 공급자이므로 자사 제품을 원가 이하로 운영해 고사시키거나 API 접근을 취소해 시장을 직접 가져갈 수 있다는 것, 이것이 절망론의 진짜 버전
이 논리는 모델 계층이 단일 플레이어 게임일 때만 성립하나 명백히 아님
- 6개월 뒤처진 국제 플레이어들이 가세한 "3.5자 데스매치"에 가깝고, 개발 리그는 작년의 5배 규모
- 고객은 공급자 간 경쟁을 원하고, lab은 특정 애플리케이션 하나를 죽이는 것보다 시장 점유율(market share) 을 더 원함
lab끼리 정면 경쟁하는 시장에서 이를 관찰 가능, consumer chat에서 최고 모델이 단순히 이긴 적은 없음
- ChatGPT는 수년간 실제 경쟁 속에서 선두를 유지, 현재 잃는 점유율은 더 나은 모델이 아니라 Android와 Search에 힘입은 Gemini로 이동
- prediction market과 인터넷 분위기상 최고 모델로 평가받는 Anthropic은 consumer chat에서 거의 변수가 못 되고 enterprise와 coding에서 사업을 구축
- 가장 중심적인 애플리케이션에서조차 더 나은 모델이 경쟁자 사용자를 못 가져간다면, 병원 기록이나 은행 책임을 통합으로 뚫지 못함

무엇이 좋은 답인지 정의할 권리

외부에서 채점할 수 없다면 내부의 누군가가 좋은 답이 무엇인지 결정해야 하며, 그 결정이 게임 전체
- 그런 결정이 충분히 쌓여 기록되면 benchmark가 됨, Harvey는 법률용을, Sierra는 voice agent용을 발표
- 어떤 분야에서 good을 정의할 권리는 이미 그 분야가 쓰는 주체가 됨으로써 얻으며, 이들은 실제 도입의 고투를 통해 그 권리를 획득
실제 돈을 가르는 평가는 사적이고 firm별, 이 회사가 이런 종류의 건에서 무엇을 좋은 작업으로 받아들이는가이며, 법의 깊이가 어떤 공개 테스트도 압도하므로 결코 완결되지 않음
이는 측정이 아니라 무엇이 참이고 무엇이 좋은가에 대한 판단(judgment), 기록되어 표준이 되며 foundation lab은 아무리 똑똑해도 저술할 수 없음
- 그 지위는 분야 내부에만 존재, 권위는 원래 있던 자리에 안착
- 법률 benchmark는 선임 변호사가, 안전한 임상 답변 정의는 의사가, resolved의 의미는 이미 고객을 소유한 회사가 결정

끝없이 다시 underwrite해야 하는 방어전

더 많은 일을 측정하게 되면서 absorption frontier는 계속 상승하고, 측정 가능해진 것은 먹힘
untrainable한 땅은 그 위에 선 자의 발밑에서 줄어들어 안전한 자리에 안주할 수 없음, 아직 채점되지 않는 곳으로 계속 발을 옮기며 끊임없이 re-underwrite해야 함
좁은 과제에서 사적 데이터와 자체 eval로 frontier까지 훈련하면 그 지점에서 범용 모델을 이기고, 그 특화 모델이 moat의 일부가 됨
반대로 범용 모델에서 경쟁하는 것은 compute를 가장 많이 가진 쪽에 지는 capital war, 접근이 얕고 과제가 읽기 쉬운 회사의 함정
- 생존을 위해 범용 영역에서 frontier를 능가하도록 훈련하기로 결정하는 날, 승자는 데이터센터 규모로 결정되며 결말은 독립 챔피언이 아니라 compute 풍부한 쪽으로의 매각

더 어려운 공격: 무엇을 만들 것인가

위 내용은 모두 방어, 더 어려운 것은 애초에 무엇을 만들지 고르는 공격이며 1년에 세 번쯤 발견
모델은 여기서 도움이 안 됨, 가리키는 무엇이든 하지만 무엇을 가리킬 가치가 있는지는 말해주지 못하고 benchmark할 수 없으니 훈련도 불가
- 이것이 기존 강자가 전부를 가져가지 못하는 이유, 다음 것은 남들보다 먼저 용도를 찾는 누군가에게서 나옴
- 어쩌면 의도(intent) 가 compute보다 더 희소한 입력

결론: 역사를 가진 가치

절망론은 절반만 맞음, 얇은 래퍼 계층은 실제로 흡수되는 중이며 오늘 회사처럼 보이는 많은 것이 사실 얇은 래퍼
- 다만 그것이 무엇을 남기는지에 대해서는 틀림, 흡수의 메커니즘은 분명하나 최종 도착지는 불분명
지능은 계속 저렴해지고 가치는 모델이 닿을 수 없는 소수의 자리로 미끄러짐, 이 자리가 untrainable — 관계·신뢰·축적된 판단처럼 시간을 거쳐 쌓여 훈련으로 복제할 수 없는 '역사를 가진 가치(value with history)'
그러므로 지능 자체를 소유하려 하지 말고, 정답이 그 분야 내부에만 존재하는 영역 안으로 들어가야 함("get inside one")
- 회사의 사적 현실을 모델이 다룰 수 있게 정렬하는 화려하지 않은 번역(translation) 작업을 직접 수행
- 그 분야에서 무엇이 good(좋은 답)인지를 기록해 기준을 정의하는 주체가 되는 것이 핵심, 이 자리는 비어 있지 않아 내가 안 하면 누군가가 반드시 차지하기 때문
올해 가장 많이 인용된 benchmark 점수는 자랑거리가 아니라 경고, 곧 무가치해질 영토의 지도이자 무엇이 good인지 말할 권리를 곧 잃을 자에 대한 통지
- 공개적으로 측정 가능해졌다는 것은 곧 공용재(commodity)가 된다는 신호이며, 공개 채점은 누구나 따라잡으므로 그 점수로 1등 한 주체조차 good의 기준을 정의할 권리를 잃음

훈련시킬 수 없는 것

투자자 절망론과 그 논리

소프트웨어가 보여주는 진짜 교훈

측정 가능한 것은 훈련 대상이 됨

조직의 속도로만 움직이는 것

읽을 수 있는 일은 떠나는 중

2x2와 ‘훈련 불가능한 영역’

병목은 지능이 아니라 권한과 책임

그 일 자체의 본질

사례: 대형 로펌 M&A

읽기 어려운 가치는 팔기도 어려움

token 서빙도 순수 commodity는 아님

lab이 공급자라는 반론

무엇이 좋은 답인지 정의할 권리

끝없이 다시 underwrite해야 하는 방어전

더 어려운 공격: 무엇을 만들 것인가

결론: 역사를 가진 가치

함께 보면 좋은 글 β

댓글과 토론