말씀해주신 것처럼 다섯 개를 독립적으로 평가하면 정답이 두 개 이상 혹은 하나도 없는 현상도 발생하더라고요. 그러면 다시 각 정답과 풀이를 보고 판단하는 프롬프트를 추가로 넣어줘야 하고요.
혹은 다섯 개의 선지 각각에 대해서 여러번 프롬프트를 시도해서 가장 답으로 많이 뽑는 선지를 정답으로 하는 방법도 있을텐데, 말씀하신 것처럼 API 비용이 점점 눈덩이처럼 불어나겠네요;; 이미 현재 프롬프트만 하더라도 1회 수능 응시에 4~5달러나 들어서요 ㅠㅠ
요걸 5지선다중에 고르는 문제가 아니라 각각의 선택지를 True / False 로 보는 Classification 문제로 접근하는 방법은 어떤가요?
CoT 로 각각의 선지를 독립적으로 참인지 거짓인지 판단을 내리게 한 다음에 5개의 생각의 근거를 보고 마지막에 최종 결정을 내리는 식으로 Agent 들을 구성하면 더 수준낮은 모델로도 더 높은 품질의 결과물을 볼 수 있습니다.
현재 구성하신 방법은 1번 선지부터 평가가 들어가기 때문에 이후 선지를 평가할때 이전 선지에 대한 선입견이 추가되게 됩니다. GPT-4 가 대단한 이유 중 하나가 모델이 충분히 커지면서 이러한 선입견이 잘 영향을 끼치지 않는다는 것인데, 이것역시 지문이 길어질수록 효과가 떨어진다고 논문에서 봤던것 같네요.
(리뷰 안된 아카이브 논문이었지만.. 나름 그럴듯한 내용이긴 했습니다.)
물론 API 비용은 6배가 되겠지만, 개인적인 생각으로 프롬팅만 잘 하면 수능국어 정도는 GPT-3.5 로도 충분할꺼 같습니다.