AI 리서치의 미래: 레시피에서 밀키트로
(open.substack.com)핵심 요약 (TL;DR)
-
AI 논문 폭증 = 진보 + 동시에 ‘Noise Tax’
- 2013 → 2023 연간 AI 논문: ~102,000 → ~242,000
- 같은 기간 CS 논문 중 AI 비중: 21.6% → 41.8%
-
논문이 늘수록 선별/재현/운영 비용이 폭증
- 더 읽는데 제품은 덜 안정됨
- SOTA를 쫓을수록 재현성과 운영성은 내려감
-
논문을 프로덕션화하면 4가지 실패 모드가 거의 항상 등장
-
그래서 2026 시그널은 단순함:
DIY(레시피 구현) ↓ / Packaging(밀키트) ↑- “논문 읽고 구현”보다 바로 배포 가능한 단위가 이김
- NVIDIA NIM / SLM / Ollama 같은 패키징이 표준화 흐름을 만든다
문제 정의: AI 논문은 ‘미슐랭 레시피’다
저자는 AI 연구 논문을 미슐랭 셰프의 레시피로 비유한다.
레시피 자체가 나쁜 게 아니다. 우리 주방이 다를 뿐이다.
논문은 완벽한 주방에서 조리된다.
- H100 클러스터
- 깨끗하게 정제된 데이터셋
- 실험 환경에 최적화된 숨은 트릭들
그러다 그 레시피가 현장(온프렘/레거시/컴플라이언스/운영)으로 내려오면, 같은 현상이 반복된다.
논문-to-프로덕션: 4가지 실패 모드
1) Broken Utensils (인프라)
-
논문 결과는 H100 수천장급 기준으로 나온다
-
현실은 소형 GPU / 제한된 VRAM / 제약된 네트워크
-
문제는 “성능이 조금 떨어짐”이 아니다
→ 현상 자체가 안 나온다 -
흔한 증상:
- “돌긴 도는데 기대한 행동이 없음”
- 파이프라인은 완료되는데 promised behavior는 안 나타남
2) Spoiled Ingredients (데이터)
-
논문은 정제 데이터를 가정한다
-
현장 데이터는:
- 로그, 스캔 PDF, 레거시 문서, 스키마 변동, 불명확한 출처
-
RAG/추론은 구조·근거·일관성이 깨지면 바로 환각으로 간다
-
더 위험한 점:
- 유창해서 더 믿게 된다
- “멀쩡해 보이는데 틀림”이 가장 비싸다
3) Missing Salt (엔지니어링 디테일)
-
“Season to taste” 구간이 제일 크다
-
실제 승부처:
- 초기화 / 스케줄러 / 0.001 단위 튜닝 / 프롬프트 템플릿
-
이런 건 논문 8페이지에 못 담긴다
-
실전은 결국 여기서 갈린다:
- 레시피가 아니라 비밀 양념(재현 조건) 이 결과를 좌우한다
4) Responsibility Gap (책임)
-
실패하면 결론이 이렇다:
- “수학은 맞음. 니 환경 문제”
-
갭의 책임이 다운스트림으로 내려온다
→ 결국 논문 읽고 추천한 사람에게 불똥이 튄다. -
장애/감사 들어오면 “우리가 만든 시스템”이 된다
구조적 한계 2개: DIY를 포기하게 만드는 원인
A) Paper Explosion = Noise Tax
논문이 늘수록 선별 비용이 폭증한다.
- 더 읽는데 제품은 덜 안정됨
- SOTA를 쫓을수록 운영성이 내려감
- “지식 풍요”가 아니라 “선택 비용”이다
B) 자본의 방향 변화: ‘논문’ → ‘운영’
돈이 “새 레시피”보다 운영 가능한 패키지로 이동한다.
투자 질문이 바뀌었다.
- 데모냐, 운영이냐
- 비용/지연/관측/감사 되냐
운영 리스크는 보통 이 3개로 귀결된다:
- 비용 리스크: PoC는 되는데 운영에서 터짐
- 신뢰 리스크: 근거/출처 깨지면 답이 그럴싸해도 위험함
- 책임 리스크: 장애나 감사 오면 우리 책임이 됨
2026 가장 강한 신호: Packaging
AI Meal Kit = Ready-to-deploy + 실패 책임 경계가 있는 배포 단위
즉, 2026의 결론은 이거다:
Packaging beats ingenuity.
4가지 시장 시그널
Signal #1) NVIDIA NIMs
- 모델 설정/의존성/최적화가 컨테이너로 고정
- 툴체인 추측이 줄어듦
- 비밀 양념이 들어가 있음.
- 메시지: “Tune less. Run more.”
Signal #2) SLMs
- “주방에 맞춘 레시피”가 늘어남
- 로컬/엣지 운영 가능성이 올라감
- 방향성: bounded / predictable / cheaper to operate
Signal #3) AI in a Box
- 서버가 “부품”이 아니라 “완제품”으로 팔림
- RAG/보안/기본 설정 포함
- 효과: 누가 갭을 책임지는지 경계가 생김
Signal #4) Ollama / LM Studio
- 환경설정 난이도 급감
- 운영자가 늘어남
- 운영자가 늘면 시장은 항상 이렇게 된다: 표준화가 빨라짐
실무 관점: 바로 보는 지표
- Compute Fit: 목표 성능이 “우리 GPU/VRAM”에서 재현됨?
- Data Fit: 입력 데이터가 “구조/근거/출처” 유지됨?
- Hidden Salt: 재현에 필요한 스크립트/프롬프트/튜닝 값이 버전 고정됨?
- Owner: 실패했을 때 책임 표면이 어디임? (우리? 벤더? 패키지?)
- Ops: 관측(로그/메트릭), 롤백, 비용 상한, 감사가 설계에 들어있음?
결론
2026은 “더 똑똑한 모델”보다
“덜 터지는 배포 단위” 가 이긴다.
논문은 계속 나오지만, 시장은 포장된 지능을 산다.
팀도 선택해야 한다.
- 레시피 구현을 계속할지
- 밀키트 수준으로 패키징/운영할지
One-liner
“논문은 아이디어를 팔고, 시장은 운영을 산다.”