AI 서비스 PM, 이제 '기획'을 넘어 '평가'를 설계하라
(maily.so)최근 생성형 AI 서비스가 급증하며 PM의 역할에 근본적인 변화가 생기고 있습니다.
이는 QA역할에서도 마찬가지인데요.
과거 PM이 요구사항(Spec)을 정의하고 QA가 기능의 정상 작동(Pass/Fail)을 검증했다면, AI 시대의 품질은 PM이 직접 '정의'하고 '평가'해야 하는 영역이 되었습니다.
- 왜 QA가 아니라 PM이 품질을 책임지는가?
- 정답의 부재: AI 답변은 맞고 틀림의 문제가 아니라 '좋고 나쁨'의 스펙트럼 위에 있습니다.
- 평가의 주관성: "자연스러운가?", "도움이 되는가?" 같은 정성적 기준은 제품의 비전을 가장 잘 아는 PM만이 정의할 수 있습니다.
- 정의가 곧 품질: AI 서비스에서 품질은 테스트로 잡는 것이 아니라, 처음부터 무엇이 '좋은 결과'인지 정의하는 것에서 시작됩니다.
- 일반 서비스 vs AI 서비스 품질 관리 비교
기존의 일반적인 소프트웨어 서비스와 AI 서비스는 품질을 바라보는 관점부터 관리 방식까지 큰 차이가 있습니다.
-
품질의 기준과 판단: 일반 서비스는 기획서가 곧 정답입니다. 버튼이 작동하는지, 결제가 되는지처럼 '맞다/틀리다(Pass or Fail)' 를 명확히 나눌 수 있는 O/X 퀴즈 같은 방식입니다. 반면, AI 서비스는 명확한 정답 대신 '모범 답안'이 존재할 뿐입니다. 품질이 연속적인 스펙트럼 위에 있어, 정답 여부보다는 결과가 얼마나 최적화되었는지를 판단하는 논술 시험 채점 방식에 가깝습니다.
-
품질 관리의 핵심과 책임: 일반 서비스에서는 기획대로 기능이 완결되었는지 검증하는 '품질 보증(QA)' 이 중요하며, 그 책임은 주로 QA 조직에 있습니다. 하지만 AI 서비스는 무엇이 좋은 결과인지 그 기준을 세우는 '평가 설계' 가 핵심입니다. 따라서 제품의 비전을 가장 잘 아는 PM이 품질의 최종 책임자가 됩니다.
-
검증 방식의 변화: 과거에는 정해진 시나리오에 따라 기능이 동작하는지 테스트했다면, AI 서비스는 사람이 직접 결과물을 보고 판단하는 정성 평가(Human Eval) 를 거칩니다. 나아가 PM이 수립한 기준을 학습시킨 LLM을 평가자(LLM Judge)로 활용하여 대량의 데이터를 자동화된 방식으로 검증하며 품질을 개선해 나갑니다.
- AI PM을 위한 품질 관리 5단계
- 가이드직접 점수 매겨보기: 샘플 데이터를 뽑아 직접 채점하며 본인의 판단 기준을 인식합니다.
- 기준 명문화하기: "구체성", "현실성" 등 막연한 느낌을 설명 가능한 언어로 정의합니다.
- 데이터셋 구축: 서비스가 해결해야 할 핵심 질문 리스트와 모범 답안을 만듭니다.
- 평가 자동화(LLM Judge): 정의한 기준을 바탕으로 LLM이 대량의 결과를 평가하게 합니다.\
- 지표 의심하기: 평가 점수가 높아져도 유저 만족도가 낮다면 기준 자체를 재검토합니다.
💡 인사이트이제
PM은 단순히 기능을 만드는 사람이 아니라 '제품의 가치 판단 기준'을 설계하는 사람입니다. 무엇이 좋은 결과인지 정의하고 이를 측정하는 구조를 만드는 경험은 AI 시대 PM에게 가장 강력한 경쟁력이 될 것입니다.