AI 리서치의 미래: 레시피에서 밀키트로

(open.substack.com)

8P by flamehaven01 2달전 | ★ favorite | 댓글 2개

핵심 요약 (TL;DR)

AI 논문 폭증 = 진보 + 동시에 ‘Noise Tax’
- 2013 → 2023 연간 AI 논문: ~102,000 → ~242,000
- 같은 기간 CS 논문 중 AI 비중: 21.6% → 41.8%
논문이 늘수록 선별/재현/운영 비용이 폭증
- 더 읽는데 제품은 덜 안정됨
- SOTA를 쫓을수록 재현성과 운영성은 내려감
논문을 프로덕션화하면 4가지 실패 모드가 거의 항상 등장
그래서 2026 시그널은 단순함:
DIY(레시피 구현) ↓ / Packaging(밀키트) ↑
- “논문 읽고 구현”보다 바로 배포 가능한 단위가 이김
- NVIDIA NIM / SLM / Ollama 같은 패키징이 표준화 흐름을 만든다

문제 정의: AI 논문은 ‘미슐랭 레시피’다

저자는 AI 연구 논문을 미슐랭 셰프의 레시피로 비유한다.
레시피 자체가 나쁜 게 아니다. 우리 주방이 다를 뿐이다.

논문은 완벽한 주방에서 조리된다.

H100 클러스터
깨끗하게 정제된 데이터셋
실험 환경에 최적화된 숨은 트릭들

그러다 그 레시피가 현장(온프렘/레거시/컴플라이언스/운영)으로 내려오면, 같은 현상이 반복된다.

논문-to-프로덕션: 4가지 실패 모드

1) Broken Utensils (인프라)

논문 결과는 H100 수천장급 기준으로 나온다
현실은 소형 GPU / 제한된 VRAM / 제약된 네트워크
문제는 “성능이 조금 떨어짐”이 아니다
→ 현상 자체가 안 나온다
흔한 증상:
- “돌긴 도는데 기대한 행동이 없음”
- 파이프라인은 완료되는데 promised behavior는 안 나타남

2) Spoiled Ingredients (데이터)

논문은 정제 데이터를 가정한다
현장 데이터는:
- 로그, 스캔 PDF, 레거시 문서, 스키마 변동, 불명확한 출처
RAG/추론은 구조·근거·일관성이 깨지면 바로 환각으로 간다
더 위험한 점:
- 유창해서 더 믿게 된다
- “멀쩡해 보이는데 틀림”이 가장 비싸다

3) Missing Salt (엔지니어링 디테일)

“Season to taste” 구간이 제일 크다
실제 승부처:
- 초기화 / 스케줄러 / 0.001 단위 튜닝 / 프롬프트 템플릿
이런 건 논문 8페이지에 못 담긴다
실전은 결국 여기서 갈린다:
- 레시피가 아니라 비밀 양념(재현 조건) 이 결과를 좌우한다

4) Responsibility Gap (책임)

실패하면 결론이 이렇다:
- “수학은 맞음. 니 환경 문제”
갭의 책임이 다운스트림으로 내려온다
→ 결국 논문 읽고 추천한 사람에게 불똥이 튄다.
장애/감사 들어오면 “우리가 만든 시스템”이 된다

구조적 한계 2개: DIY를 포기하게 만드는 원인

A) Paper Explosion = Noise Tax

논문이 늘수록 선별 비용이 폭증한다.

더 읽는데 제품은 덜 안정됨
SOTA를 쫓을수록 운영성이 내려감
“지식 풍요”가 아니라 “선택 비용”이다

B) 자본의 방향 변화: ‘논문’ → ‘운영’

돈이 “새 레시피”보다 운영 가능한 패키지로 이동한다.
투자 질문이 바뀌었다.

데모냐, 운영이냐
비용/지연/관측/감사 되냐

운영 리스크는 보통 이 3개로 귀결된다:

비용 리스크: PoC는 되는데 운영에서 터짐
신뢰 리스크: 근거/출처 깨지면 답이 그럴싸해도 위험함
책임 리스크: 장애나 감사 오면 우리 책임이 됨

2026 가장 강한 신호: Packaging

AI Meal Kit = Ready-to-deploy + 실패 책임 경계가 있는 배포 단위

즉, 2026의 결론은 이거다:

Packaging beats ingenuity.

4가지 시장 시그널

Signal #1) NVIDIA NIMs

모델 설정/의존성/최적화가 컨테이너로 고정
툴체인 추측이 줄어듦
비밀 양념이 들어가 있음.
메시지: “Tune less. Run more.”

Signal #2) SLMs

“주방에 맞춘 레시피”가 늘어남
로컬/엣지 운영 가능성이 올라감
방향성: bounded / predictable / cheaper to operate

Signal #3) AI in a Box

서버가 “부품”이 아니라 “완제품”으로 팔림
RAG/보안/기본 설정 포함
효과: 누가 갭을 책임지는지 경계가 생김

Signal #4) Ollama / LM Studio

환경설정 난이도 급감
운영자가 늘어남
운영자가 늘면 시장은 항상 이렇게 된다: 표준화가 빨라짐

실무 관점: 바로 보는 지표

Compute Fit: 목표 성능이 “우리 GPU/VRAM”에서 재현됨?
Data Fit: 입력 데이터가 “구조/근거/출처” 유지됨?
Hidden Salt: 재현에 필요한 스크립트/프롬프트/튜닝 값이 버전 고정됨?
Owner: 실패했을 때 책임 표면이 어디임? (우리? 벤더? 패키지?)
Ops: 관측(로그/메트릭), 롤백, 비용 상한, 감사가 설계에 들어있음?

결론

2026은 “더 똑똑한 모델”보다
“덜 터지는 배포 단위” 가 이긴다.

논문은 계속 나오지만, 시장은 포장된 지능을 산다.
팀도 선택해야 한다.

레시피 구현을 계속할지
밀키트 수준으로 패키징/운영할지

One-liner

“논문은 아이디어를 팔고, 시장은 운영을 산다.”

▲

cgl00 2달전 [-]

근데 비즈니스에서 논문 보고 직접 구현해서 쓰는 사례가 원래는 있었나요..?

답변달기

▲

flamehaven01 2달전 [-]

있습니다. 다만 대부분은 논문 보고 0부터 만들기보단, 오픈소스 레퍼런스 구현을 타고 들어가는 경우가 많더라고요.
요즘 AI 쪽은 핫한 논문 뜨면 POC도 우수수 올라오는데, 막상 프로덕션에선 데이터/인프라/튜닝 때문에 “돌긴 도는데 기대한 맛”이 안 나는 경우가 많은 것 같습니다.
그래서 요즘은 vLLM, Ollama 같은 패키징된 스택 등으로 몰리는 느낌입니다.

답변달기