블로그 검수를 AI 5명한테 맡겼더니 실제로 잡아냈습니다

글 쓰고 나서 직접 퇴고하는 게 가장 힘들었습니다. AI가 뽑아낸 초안을 라인 단위로 읽고 고치는 데 매번 오랜시간 걸렸습니다.
그래서 직접 AI한테 AI를 검수시키는 파이프라인을 만들어봤습니다.

** 구조는 단순하게 잡았습니다 **

  • Gemini 2개, Claude 2개, 현재 세션 1개 — 총 5개 Critic을 Bash &로 동시에 돌렸습니다
  • 각자 다른 페르소나로 읽도록 했습니다 "처음 보는 시니어 개발자", "이 기술 써본 사람", "편집자", "따라해볼 독자", "SEO 담당자"
  • JSON으로 점수를 받아서 평균 8점 넘으면 통과, 안 넘으면 피드백 반영 후 재평가 합니다

** 실제로 뭘 잡아냈냐면 **
첫 라운드에서 평균 7.6이 나왔습니다. "따라해볼 독자 Critic"에서 코드 예시가 없다며 3점을 줬는데, 제가 직접 읽었으면 그냥 넘어갔을 부분이었습니다. 코드 블록 3개를 추가하고 나열식 트러블슈팅을 서사형으로 고쳤더니 2라운드에서 8.4로 통과했습니다.

** 돌려보니 구조적 허점이 보였습니다 **
Critic 간 피드백이 충돌하면 스스로가 판단하고 결정없이 넘어가는 문제. 평균 점수가 높으면 과락도 통과되는 점. 파싱 실패 시 전체 중단.
따라서, Synthesis 중재자를 새롭게 두었고, Veto(거부권) 설정과 과락 조건을 적용하였고, fallback 파서로 대응했습니다.

** 마지막에 발행은 push 대신 PR로 바꿨습니다 **
Human-In-The-Loop로써, AI가 합의해도 사람 눈은 꼭 거치도록 했습니다. PR body에 Critic 점수 테이블이 들어가고, 제가 라인 코멘트를 남기면 AI가 수정 커밋을 추가합니다. merge 전까지 이 루프를 반복합니다.

네, 결국 이 글도 같은 파이프라인으로 발행했습니다.