13P by winterjung 24시간전 | ★ favorite | 댓글과 토론
  • AI 제품을 만드는 대부분의 회사는 실험 단계에 갇혀 있으며 신뢰할 만한 시스템과 도구가 부족함
  • 우리의 사례
    • 올해 초, LLM 모델을 gpt-4o-2024-08-06에서 gpt-4o-2024-11-20로 업데이트함
    • 핵심 프롬프트 테스트 통과율이 기존 100%에서 79%로 하락함
    • 정작 Anthropic의 Sonnet 3.5가 95% 통과율을 보임
  • 많은 AI 회사가 공급업체 간 전환을 너무 쉽게 말함
    • 이는 단순히 AI를 테스트해야한다 그 이상임
    • 모델 성능을 측정하고 모델 변경이 어떤 영향을 가져오는지 정량적으로 측정하기 위해 테스트 인프라를 구축하는 건 그리 간단하지만은 않음
  • 우리가 정량화를 위해 구축했던 것
    • 적어도 30개 이상의 고유한 테스트 시나리오
    • 프롬프트의 예상 출력과 실제 출력을 비교하는 코드
    • 테스트 러너 그 자체
    • CI에서 적절한 비용으로 테스트를 실행할 수 있는 전략
  • 대부분의 팀이 빠지는 AI MVP의 함정
    • 1단계. 기만적인 MVP: 단 며칠 만에 완성된 것처럼 보이는 데모가 나옴. 그러나 곧 기본적인 실수를 하게됨
    • 2단계. ±0: 이를 개선하려고 노력하지만, 점점 복잡해지기만 하며 예측이 불가능해짐. 90%의 대부분의 회사가 이 단계에 있음
    • 3단계. 과학: 이 시점에서 평가용 테스트, 옵저버빌리티 도구 등이 필요함을 깨닫고 만들기 시작함
    • 4단계. 실제로 동작함: 마침내 지속적인 모니터링, 포괄적인 평가용 테스트 세트, 신속한 분석 도구를 갖춤
  • 이 모든 것은 쉽지도 간단하지도 않고 어려운 일임
    • 많은 회사가 혼란스러운 MVP 단계에 머무르며 출시한 AI 기능의 성능이 어떤지조차 이해하지 못함
    • "필요한 것은 그저 X뿐"이라며 AI 제품을 판매하는 건 현실을 너무 단순화한 것임
    • 누군가가 멀티 프로바이더 AI 전략을 구축한다고 말하면 어떻게 측정하고 평가하는지 물어볼 것