3P by pentaxzs 4시간전 | ★ favorite | 댓글 2개

최근 생성형 AI 서비스가 급증하며 PM의 역할에 근본적인 변화가 생기고 있습니다.

이는 QA역할에서도 마찬가지인데요.
과거 PM이 요구사항(Spec)을 정의하고 QA가 기능의 정상 작동(Pass/Fail)을 검증했다면, AI 시대의 품질은 PM이 직접 '정의'하고 '평가'해야 하는 영역이 되었습니다.

  1. 왜 QA가 아니라 PM이 품질을 책임지는가?
  • 정답의 부재: AI 답변은 맞고 틀림의 문제가 아니라 '좋고 나쁨'의 스펙트럼 위에 있습니다.
  • 평가의 주관성: "자연스러운가?", "도움이 되는가?" 같은 정성적 기준은 제품의 비전을 가장 잘 아는 PM만이 정의할 수 있습니다.
  • 정의가 곧 품질: AI 서비스에서 품질은 테스트로 잡는 것이 아니라, 처음부터 무엇이 '좋은 결과'인지 정의하는 것에서 시작됩니다.
  1. 일반 서비스 vs AI 서비스 품질 관리 비교
    기존의 일반적인 소프트웨어 서비스와 AI 서비스는 품질을 바라보는 관점부터 관리 방식까지 큰 차이가 있습니다.
  • 품질의 기준과 판단: 일반 서비스는 기획서가 곧 정답입니다. 버튼이 작동하는지, 결제가 되는지처럼 '맞다/틀리다(Pass or Fail)' 를 명확히 나눌 수 있는 O/X 퀴즈 같은 방식입니다. 반면, AI 서비스는 명확한 정답 대신 '모범 답안'이 존재할 뿐입니다. 품질이 연속적인 스펙트럼 위에 있어, 정답 여부보다는 결과가 얼마나 최적화되었는지를 판단하는 논술 시험 채점 방식에 가깝습니다.

  • 품질 관리의 핵심과 책임: 일반 서비스에서는 기획대로 기능이 완결되었는지 검증하는 '품질 보증(QA)' 이 중요하며, 그 책임은 주로 QA 조직에 있습니다. 하지만 AI 서비스는 무엇이 좋은 결과인지 그 기준을 세우는 '평가 설계' 가 핵심입니다. 따라서 제품의 비전을 가장 잘 아는 PM이 품질의 최종 책임자가 됩니다.

  • 검증 방식의 변화: 과거에는 정해진 시나리오에 따라 기능이 동작하는지 테스트했다면, AI 서비스는 사람이 직접 결과물을 보고 판단하는 정성 평가(Human Eval) 를 거칩니다. 나아가 PM이 수립한 기준을 학습시킨 LLM을 평가자(LLM Judge)로 활용하여 대량의 데이터를 자동화된 방식으로 검증하며 품질을 개선해 나갑니다.

  1. AI PM을 위한 품질 관리 5단계
  1. 가이드직접 점수 매겨보기: 샘플 데이터를 뽑아 직접 채점하며 본인의 판단 기준을 인식합니다.
  2. 기준 명문화하기: "구체성", "현실성" 등 막연한 느낌을 설명 가능한 언어로 정의합니다.
  3. 데이터셋 구축: 서비스가 해결해야 할 핵심 질문 리스트와 모범 답안을 만듭니다.
  4. 평가 자동화(LLM Judge): 정의한 기준을 바탕으로 LLM이 대량의 결과를 평가하게 합니다.\
  5. 지표 의심하기: 평가 점수가 높아져도 유저 만족도가 낮다면 기준 자체를 재검토합니다.

💡 인사이트이제
PM은 단순히 기능을 만드는 사람이 아니라 '제품의 가치 판단 기준'을 설계하는 사람입니다. 무엇이 좋은 결과인지 정의하고 이를 측정하는 구조를 만드는 경험은 AI 시대 PM에게 가장 강력한 경쟁력이 될 것입니다.

블로그 전문 읽어보니 원래 PM이 하던 일이네요. 다만 AI 시대가 와서 방식이 조금씩 변하는거 같습니다. 좋은 인사이트 잘 보았습니다.

감사합니다.
기획도 디자인도 방식은 계속 변해왔지만, 점차 속도가 빨라지는 느낌이네요.