AI 서비스 PM, 이제 '기획'을 넘어 '평가'를 설계하라

(maily.so)

최근 생성형 AI 서비스가 급증하며 PM의 역할에 근본적인 변화가 생기고 있습니다.

이는 QA역할에서도 마찬가지인데요.
과거 PM이 요구사항(Spec)을 정의하고 QA가 기능의 정상 작동(Pass/Fail)을 검증했다면, AI 시대의 품질은 PM이 직접 '정의'하고 '평가'해야 하는 영역이 되었습니다.

일반 서비스 vs AI 서비스 품질 관리 비교
기존의 일반적인 소프트웨어 서비스와 AI 서비스는 품질을 바라보는 관점부터 관리 방식까지 큰 차이가 있습니다.

품질의 기준과 판단: 일반 서비스는 기획서가 곧 정답입니다. 버튼이 작동하는지, 결제가 되는지처럼 '맞다/틀리다(Pass or Fail)' 를 명확히 나눌 수 있는 O/X 퀴즈 같은 방식입니다. 반면, AI 서비스는 명확한 정답 대신 '모범 답안'이 존재할 뿐입니다. 품질이 연속적인 스펙트럼 위에 있어, 정답 여부보다는 결과가 얼마나 최적화되었는지를 판단하는 논술 시험 채점 방식에 가깝습니다.
품질 관리의 핵심과 책임: 일반 서비스에서는 기획대로 기능이 완결되었는지 검증하는 '품질 보증(QA)' 이 중요하며, 그 책임은 주로 QA 조직에 있습니다. 하지만 AI 서비스는 무엇이 좋은 결과인지 그 기준을 세우는 '평가 설계' 가 핵심입니다. 따라서 제품의 비전을 가장 잘 아는 PM이 품질의 최종 책임자가 됩니다.
검증 방식의 변화: 과거에는 정해진 시나리오에 따라 기능이 동작하는지 테스트했다면, AI 서비스는 사람이 직접 결과물을 보고 판단하는 정성 평가(Human Eval) 를 거칩니다. 나아가 PM이 수립한 기준을 학습시킨 LLM을 평가자(LLM Judge)로 활용하여 대량의 데이터를 자동화된 방식으로 검증하며 품질을 개선해 나갑니다.