# AI MVP를 넘어서: 실제로 필요한 것

> Clean Markdown view of GeekNews topic #20119. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20119](https://news.hada.io/topic?id=20119)
- GeekNews Markdown: [https://news.hada.io/topic/20119.md](https://news.hada.io/topic/20119.md)
- Type: news
- Author: [winterjung](https://news.hada.io/@winterjung)
- Published: 2025-04-03T12:56:26+09:00
- Updated: 2025-04-03T12:56:26+09:00
- Original source: [blog.lawrencejones.dev](https://blog.lawrencejones.dev/ai-mvp/)
- Points: 16
- Comments: 0

## Summary

대부분의 AI 회사는 실험 단계에 머물러 있으며, 신뢰할 수 있는 시스템과 도구가 부족하여 모델 성능을 정량적으로 측정하는 것이 어렵습니다. 많은 회사가 AI MVP의 함정에 빠져 복잡성과 예측 불가능성에 직면하며, 이를 극복하기 위해서는 평가용 테스트와 옵저버빌리티 도구가 필요합니다. AI 제품을 성공적으로 운영하기 위해서는 지속적인 모니터링과 포괄적인 평가 시스템이 필수적입니다.

## Topic Body

- AI 제품을 만드는 대부분의 회사는 실험 단계에 갇혀 있으며 신뢰할 만한 시스템과 도구가 부족함  
- 우리의 사례  
  - 올해 초, LLM 모델을 `gpt-4o-2024-08-06`에서 `gpt-4o-2024-11-20`로 업데이트함  
  - 핵심 프롬프트 테스트 통과율이 기존 100%에서 79%로 하락함  
  - 정작 Anthropic의 Sonnet 3.5가 95% 통과율을 보임  
- 많은 AI 회사가 공급업체 간 전환을 너무 쉽게 말함  
  - 이는 단순히 AI를 테스트해야한다 그 이상임  
  - 모델 성능을 측정하고 모델 변경이 어떤 영향을 가져오는지 정량적으로 측정하기 위해 테스트 인프라를 구축하는 건 그리 간단하지만은 않음  
- 우리가 정량화를 위해 구축했던 것  
  - 적어도 30개 이상의 고유한 테스트 시나리오  
  - 프롬프트의 예상 출력과 실제 출력을 비교하는 코드  
  - 테스트 러너 그 자체  
  - CI에서 적절한 비용으로 테스트를 실행할 수 있는 전략  
- 대부분의 팀이 빠지는 AI MVP의 함정  
  - 1단계. 기만적인 MVP: 단 며칠 만에 완성된 것처럼 보이는 데모가 나옴. 그러나 곧 기본적인 실수를 하게됨  
  - 2단계. ±0: 이를 개선하려고 노력하지만, 점점 복잡해지기만 하며 예측이 불가능해짐. 90%의 대부분의 회사가 이 단계에 있음  
  - 3단계. 과학: 이 시점에서 평가용 테스트, 옵저버빌리티 도구 등이 필요함을 깨닫고 만들기 시작함  
  - 4단계. 실제로 동작함: 마침내 지속적인 모니터링, 포괄적인 평가용 테스트 세트, 신속한 분석 도구를 갖춤  
- 이 모든 것은 쉽지도 간단하지도 않고 어려운 일임  
  - 많은 회사가 혼란스러운 MVP 단계에 머무르며 출시한 AI 기능의 성능이 어떤지조차 이해하지 못함  
  - "필요한 것은 그저 X뿐"이라며 AI 제품을 판매하는 건 현실을 너무 단순화한 것임  
  - 누군가가 멀티 프로바이더 AI 전략을 구축한다고 말하면 어떻게 측정하고 평가하는지 물어볼 것

## Comments


_No public comments on this page._