# 훈련시킬 수 없는 것

> Clean Markdown view of GeekNews topic #30712. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30712](https://news.hada.io/topic?id=30712)
- GeekNews Markdown: [https://news.hada.io/topic/30712.md](https://news.hada.io/topic/30712.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-22T11:07:02+09:00
- Updated: 2026-06-22T11:07:02+09:00
- Original source: [saranormous.substack.com](https://saranormous.substack.com/p/the-untrainable)
- Points: 5
- Comments: 0

## Topic Body

- 2026년 중반 투자자들 사이 "AI 정신증"적 절망론이 확산 중이며, 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 회사는 모두 **흡수될 얇은 래퍼**에 불과하다는 논리가 핵심  
- 첫 번째 AI SWE였던 Devin은 2024년 표준 벤치마크 과제의 13%만 해결했으나 1년 반 만에 최고 에이전트가 80%대 후반에 도달, **측정 가능한 영역**부터 모델이 빠르게 잠식 중  
- 측정 가능한 것은 훈련 대상이 되어 commodity로 전락하지만, **사적이고 검증 비용이 큰 정답**은 리더보드로 읽어낼 수 없음  
- 진정한 가치는 license·liability·책임 소재처럼 모델이 닿을 수 없는 영역에 있으며, 병목은 지능이 아니라 **권한(permission)과 책임(accountability)**  
- 지능이 저렴해질수록 가치는 모델이 도달할 수 없는 소수의 자리로 이동, **‘훈련 불가능한 영역(untrainable)’** 이 최종 해자(moat)  
  
---  
  
### 투자자 절망론과 그 논리  
  
- 2026년 중반 투자자판 절망론은 투자할 대상이 없다는 인식으로, **Anthropic과 Nvidia**에만 돈을 넣고 손을 떼야 한다는 정서  
- 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 모든 회사는 흡수를 기다리는 **얇은 래퍼(thin wrapper)** 이며, 살아남는 가치는 compute와 frontier weights뿐이라는 논리  
  - 이 논리가 가장 강하게 기대는 사례가 소프트웨어 분야  
  
### 소프트웨어가 보여주는 진짜 교훈  
  
- Devin은 2024년 출시 당시 표준 소프트웨어 벤치마크 **과제의 13%만 해결해 대체로 무시**당했으나, 1년 반 뒤 최고 에이전트는 80%대 후반에 도달하며 **Goldman Sachs와 U.S. Army** 내부에서 실제 업무 수행  
- 거의 모두가 "**모델이 소프트웨어 엔지니어링을 삼켰다**" 는 잘못된 교훈을 도출, 그러나 엔지니어링은 늘 측정에 저항해 왔고 **가장 측정 가능한 부분**이 유일하게 중요한 부분은 아님  
- MIT의 Mert Demirer와 공저자들이 10만 명 이상 개발자를 대상으로 수치화, 최신 coding agent가 작성된 코드량은 약 180%, 실제 배포된 양은 약 30% 증가시킴  
  - 코드 작성은 저렴해졌으나 나머지는 여전히 사람을 거치며, 그 부분이 중요함  
  
### 측정 가능한 것은 훈련 대상이 됨  
  
- 벤치마크는 측정 가능한 것이고, 측정 가능한 것은 훈련으로 공략 가능한 것, 그래서 **coding agent가 가장 먼저 성숙**  
  - compiler와 test suite는 무료 검증기(free verifier)로 작동, 답이 스스로를 점검하므로 통과할 때까지 갈아 넣을 수 있음  
- 그러나 테스트 통과가 그 변경이 **10년 묵은 코드베이스**에 옳은 선택인지를 알려주지는 못함  
  - 모듈이 존재하는 문서화되지 않은 세 가지 이유, 아무도 작성을 인정하지 않는 cron job으로 유지되는 배포 파이프라인 등은 리더보드로 읽을 수 없음  
- 복잡한 시스템의 정확성은 세상에서 충분히 오래 돌려봐야 알 수 있고, **더 똑똑한 모델이 세상을 더 빨리 돌리지는 못함**  
  - OpenAI 추론 모델을 개척한 Noam Brown은 1년 단위로 에이전트를 평가하는 유일하게 확실한 방법은 그것을 1년 동안 돌려보는 것일 수 있다고 언급  
  
### 조직의 속도로만 움직이는 것  
  
- Gabe Pereyra에 따르면 진정한 자동화는 모델 개선만이 아니라 **product·model·workflow·firm**이 함께 움직이는 것이며, 이 중 셋은 조직의 속도로 움직임  
- 벤치마크가 닿지 못하는 부분은 사람을 움직이는 일, 즉 회의적인 파트너의 업무 방식을 바꾸거나 재구축 과정에서 팀을 유지하는 일  
  - CEO 채용 시 분석 역량만큼 **사람을 다루는 능력**을 중시하며, 더 똑똑한 모델이 이 가중치를 바꾸지 않음  
- 모든 회사가 엔지니어 전원에게 frontier coding model을 쥐여줬으나, 그 속도로 **엔지니어링 조직(eng org)** 을 바꾼 곳은 하나도 없음  
  - 도입은 한 분기 만에 이뤄졌으나 재구축은 수년이 걸리는 중  
  
### 읽을 수 있는 일은 떠나는 중  
  
- 리더보드에 올릴 수 있는 것은 곧 훈련으로 공략 가능하므로, **측정 가능한 모든 일**은 이미 commodity로 향하는 중이며 방향은 되돌아가지 않음  
- Rippling의 Matt MacInnis의 비유처럼, 일반적 질문에 답하는 token은 누구의 모델도 답할 수 있어 거의 무가치하지만 **회사 데이터를 추론하는 token**은 훨씬 가치가 큼  
- 읽을 수 있는 일은 위아래 양방향에서 잠식됨  
  - 아래에서는 과제가 포화되어 구매자가 "어느 모델인가" 대신 "비용이 얼마인가"를 묻고, 그 주 가장 저렴한 open/distilled model로 떨어짐  
  - 위에서는 lab이 retrieval·routing·tool use·reasoning policy 등 **모델을 감싸던 장치(scaffolding)** 를 weights 안으로 끌어들이는 absorption frontier가 진행 중  
- 마진 압박은 반대로도 작용, 범용 에이전트는 무엇이든 대비해야 해 비싸지만 **집중형 애플리케이션**은 하나의 workflow를 token 비용 일부만으로 돌도록 튜닝, 그 차익을 직접 가져감  
  
### 2x2와 ‘훈련 불가능한 영역’  
  
- 모든 일에 두 가지를 물을 수 있음, 정확성이 사적이며 확립 비용이 큰가, 그리고 들어갈 수 없는 시스템 안에 갇혀 있는가  
- 이를 과제 포화도와 교차하면 **2x2 구도**가 형성됨  
  - 포화 + 공개 정답 = commodity token, open model이 차지  
  - frontier + 공개 정답(coding benchmark가 위치) = lab이 승리, 평가가 무료이면 소유는 무의미  
  - 마지막 코너 = **정확성이 오직 사적으로만 존재하는 frontier 작업**, 이것이 untrainable  
- inference cloud에서 AI-native 선도 기업들이 압도적 다수의 token을 범용 open model이 아닌 **custom model**로 생성하는 데서 이를 확인 가능  
- 마지막 코너로 들어가는 벽의 높이는 다양함  
  - 개인 개발자의 toy codebase는 이식 가능하고 표준화되어 진입이 짧음  
  - 은행의 프로덕션 시스템은 둘 다 아니며, SWE-Bench Verified에서 2% 더 똑똑해진다고 root 권한을 얻지 못함  
  
### 병목은 지능이 아니라 권한과 책임  
  
- 더 나은 모델도 **사적 정답(private ground truth)** 을 공개로 만들지 못하며, license를 보유하거나 liability에 서명하거나 회사 파일을 소유하거나 답이 틀렸을 때 소송당하는 당사자가 될 수 없음  
  - 병목은 지능이 아니라 **permission과 accountability**  
- 그 문(door)에는 자물쇠(lock)와 빗장(deadbolt)이 있음  
  - lock은 환경, 보안 검토·통합·결과에 이름을 건 계약을 거쳐 신뢰를 얻어야만 AI의 유용성을 시스템 내부에서 검증 가능  
  - deadbolt는 사용자, 다수의 미국 의사가 매일 **OpenEvidence**를 여는 습관은 어떤 compute로도 살 수 없음  
- 완벽한 의료 모델을 내일 훈련해도 의사의 습관이나 UCSF의 의사결정 흐름으로 들어갈 길은 없음, 신뢰는 관계와 사용자 동의 위에 느리게 쌓임  
  
### 그 일 자체의 본질  
  
- 애플리케이션이 untrainable 코너에 자리를 얻는 길은 화려하지 않은 일, 즉 회사의 사적 현실을 모델이 다룰 수 있게 **정렬(arrange)** 하고, 행동할 도구를 쥐여주고, 고객과 함께 인력 현실을 바꾸는 작업  
  - 번역(translation)을 가져오는 회사는 복제가 어렵고, 그 번역은 끝나지 않음  
  - 통합과 유지보수는 관계가 지속되는 한 이어지며, **도메인 특화 엔지니어와 도구**를 고객 곁에 두는 팀이 승리  
- ## 사례: 대형 로펌 M&A  
  - 최상위 white-shoe 로펌에서 M&A 부서 한 곳만 연간 약 1,000건의 딜을 처리, 수백 명의 어소시에이트가 각자 client file을 데스크톱에 내려받아 범용 에이전트로 훑게 할 수는 없음  
    - 기밀 유지 등 여러 이유 때문이며, 가능하더라도 얻는 것은 한 명의 수정 한 번씩의 파편뿐, 딜 전체 흐름은 보이지 않음  
  - 의미 있는 신호는 **딜 단위(level of the deal)** 에 존재하며, 딜에는 형태가 있음  
    - M&A는 NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist  
    - IP litigation은 motion·discovery·prior art·추가 motion  
    - 각 practice area마다 고유하며 변호사도 도구도 서로 호환되지 않음  
  - 로펌이 실제로 푸는 문제는 그 위 단계, 모든 practice area를 병렬로 운영하는 것, top partner가 수백 건을 동시에 굴리며 신규 건을 들여오고 어소시에이트를 훈련하는 방식  
    - 이런 로펌의 변환은 eval로 쓸 수 있는 단일 과제가 아니며, 극도로 모호한 중간 목표와 불완전한 피드백, 매우 긴 기간, 멈춰 있지 않는 환경 속에서 **운영자(operator)** 가 정교하게 운용해야 함  
  
### 읽기 어려운 가치는 팔기도 어려움  
- 외부에서는 AI가 운영을 바꿀지 회사 스스로도 알 수 없어, 가장 강한 비즈니스는 외부 증명을 멈추고 안으로 들어가 **결과(outcome)에 가격을 매김**  
- Sierra는 에이전트가 고객 문제를 resolve할 때 과금하고 사람에게 넘기면 과금하지 않음, 가격이 곧 평가가 되며 이는 Sierra가 **resolved의 정의**를 소유하기에 작동  
- Cognition의 Devin도 소프트웨어에서 동일하게 **performance guarantee**를 제시, 신뢰받는 시스템 내부의 결과에 대해서만 가능한 방식  
  
### token 서빙도 순수 commodity는 아님  
- 순수 commodity로 불리던 token 서빙조차 그렇게 행동하지 않음, 최고의 AI-native 기업은 서빙을 **한두 곳(Baseten 또는 Fireworks)** 에 집중  
  - token당 비용은 예정대로 commodity화되지만, 실제 트래픽 하의 reliability와 희소 compute에 대한 보장된 접근은 그렇지 않음  
  - 어디서 서빙하느냐는 어떤 모델을 쓰느냐와는 다른 선택이며, inference에서 commodity처럼 행동하는 부분은 **가격(price)** 뿐  
  
### lab이 공급자라는 반론  
- 흔한 반론은 lab이 공급자이므로 자사 제품을 원가 이하로 운영해 고사시키거나 API 접근을 취소해 시장을 직접 가져갈 수 있다는 것, 이것이 절망론의 진짜 버전  
- 이 논리는 모델 계층이 **단일 플레이어 게임**일 때만 성립하나 명백히 아님  
  - 6개월 뒤처진 국제 플레이어들이 가세한 "3.5자 데스매치"에 가깝고, 개발 리그는 작년의 5배 규모  
  - 고객은 공급자 간 경쟁을 원하고, lab은 특정 애플리케이션 하나를 죽이는 것보다 **시장 점유율(market share)** 을 더 원함  
- lab끼리 정면 경쟁하는 시장에서 이를 관찰 가능, consumer chat에서 최고 모델이 단순히 이긴 적은 없음  
  - ChatGPT는 수년간 실제 경쟁 속에서 선두를 유지, 현재 잃는 점유율은 더 나은 모델이 아니라 **Android와 Search**에 힘입은 Gemini로 이동  
  - prediction market과 인터넷 분위기상 최고 모델로 평가받는 Anthropic은 consumer chat에서 거의 변수가 못 되고 **enterprise와 coding**에서 사업을 구축  
  - 가장 중심적인 애플리케이션에서조차 더 나은 모델이 경쟁자 사용자를 못 가져간다면, 병원 기록이나 은행 책임을 통합으로 뚫지 못함  
  
### 무엇이 좋은 답인지 정의할 권리  
- 외부에서 채점할 수 없다면 내부의 누군가가 좋은 답이 무엇인지 결정해야 하며, 그 결정이 게임 전체  
  - 그런 결정이 충분히 쌓여 기록되면 benchmark가 됨, Harvey는 법률용을, Sierra는 voice agent용을 발표  
  - 어떤 분야에서 good을 정의할 권리는 **이미 그 분야가 쓰는 주체**가 됨으로써 얻으며, 이들은 실제 도입의 고투를 통해 그 권리를 획득  
- 실제 돈을 가르는 평가는 사적이고 firm별, 이 회사가 이런 종류의 건에서 무엇을 좋은 작업으로 받아들이는가이며, 법의 깊이가 어떤 공개 테스트도 압도하므로 결코 완결되지 않음  
- 이는 측정이 아니라 **무엇이 참이고 무엇이 좋은가에 대한 판단(judgment)**, 기록되어 표준이 되며 foundation lab은 아무리 똑똑해도 저술할 수 없음  
  - 그 지위는 분야 내부에만 존재, 권위는 원래 있던 자리에 안착  
  - 법률 benchmark는 선임 변호사가, 안전한 임상 답변 정의는 의사가, resolved의 의미는 이미 고객을 소유한 회사가 결정  
  
### 끝없이 다시 underwrite해야 하는 방어전  
- 더 많은 일을 측정하게 되면서 **absorption frontier**는 계속 상승하고, 측정 가능해진 것은 먹힘  
- untrainable한 땅은 그 위에 선 자의 발밑에서 줄어들어 안전한 자리에 안주할 수 없음, 아직 채점되지 않는 곳으로 계속 발을 옮기며 끊임없이 re-underwrite해야 함  
- 좁은 과제에서 사적 데이터와 자체 eval로 **frontier까지 훈련**하면 그 지점에서 범용 모델을 이기고, 그 특화 모델이 moat의 일부가 됨  
- 반대로 범용 모델에서 경쟁하는 것은 compute를 가장 많이 가진 쪽에 지는 capital war, 접근이 얕고 과제가 읽기 쉬운 회사의 함정  
  - 생존을 위해 범용 영역에서 frontier를 능가하도록 훈련하기로 결정하는 날, 승자는 데이터센터 규모로 결정되며 결말은 독립 챔피언이 아니라 **compute 풍부한 쪽으로의 매각**  
  
### 더 어려운 공격: 무엇을 만들 것인가  
- 위 내용은 모두 방어, 더 어려운 것은 애초에 무엇을 만들지 고르는 공격이며 1년에 세 번쯤 발견  
- 모델은 여기서 도움이 안 됨, 가리키는 무엇이든 하지만 **무엇을 가리킬 가치가 있는지**는 말해주지 못하고 benchmark할 수 없으니 훈련도 불가  
  - 이것이 기존 강자가 전부를 가져가지 못하는 이유, 다음 것은 남들보다 먼저 용도를 찾는 누군가에게서 나옴  
  - 어쩌면 **의도(intent)** 가 compute보다 더 희소한 입력  
  
### 결론: 역사를 가진 가치  
- 절망론은 절반만 맞음, **얇은 래퍼 계층은 실제로 흡수되는 중**이며 오늘 회사처럼 보이는 많은 것이 사실 얇은 래퍼  
  - 다만 그것이 무엇을 *남기는지*에 대해서는 틀림, 흡수의 메커니즘은 분명하나 **최종 도착지는 불분명**  
- 지능은 계속 저렴해지고 가치는 모델이 닿을 수 없는 소수의 자리로 미끄러짐, 이 자리가 **untrainable** — 관계·신뢰·축적된 판단처럼 시간을 거쳐 쌓여 훈련으로 복제할 수 없는 **'역사를 가진 가치(value with history)'**  
- 그러므로 지능 자체를 소유하려 하지 말고, 정답이 그 분야 내부에만 존재하는 영역 안으로 들어가야 함("get inside one")  
  - 회사의 사적 현실을 모델이 다룰 수 있게 정렬하는 화려하지 않은 **번역(translation) 작업**을 직접 수행  
  - 그 분야에서 무엇이 **good(좋은 답)인지를 기록**해 기준을 정의하는 주체가 되는 것이 핵심, 이 자리는 비어 있지 않아 내가 안 하면 누군가가 반드시 차지하기 때문  
- 올해 가장 많이 인용된 benchmark 점수는 자랑거리가 아니라 경고, **곧 무가치해질 영토의 지도**이자 무엇이 good인지 말할 권리를 곧 잃을 자에 대한 통지  
  - 공개적으로 측정 가능해졌다는 것은 곧 공용재(commodity)가 된다는 신호이며, 공개 채점은 누구나 따라잡으므로 그 점수로 1등 한 주체조차 good의 기준을 정의할 권리를 잃음

## Comments


_No public comments on this page._