말씀해주신 것처럼 다섯 개를 독립적으로 평가하면 정답이 두 개 이상 혹은 하나도 없는 현상도 발생하더라고요. 그러면 다시 각 정답과 풀이를 보고 판단하는 프롬프트를 추가로 넣어줘야 하고요.
혹은 다섯 개의 선지 각각에 대해서 여러번 프롬프트를 시도해서 가장 답으로 많이 뽑는 선지를 정답으로 하는 방법도 있을텐데, 말씀하신 것처럼 API 비용이 점점 눈덩이처럼 불어나겠네요;; 이미 현재 프롬프트만 하더라도 1회 수능 응시에 4~5달러나 들어서요 ㅠㅠ

비용절감도 고민해야하는 엔지니어링 세계에 입문하신걸 환영합니다 ㅋㅋ