29P by vkehfdl1 9달전 | favorite | 댓글 7개
  • 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, CoT 기반 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상.
  • 특정 문법 문제 유형에 특화된 프롬프트를 사용하여 최대 1등급(96점, 상위 4%)까지 달성.
  • 프롬프트 전문과 소스코드, 사용한 수능 국어 데이터셋을 깃허브에 오픈소스로 공개.
  • 아직 부족하다고 알려진 LLM의 한국어 성능이 GPT-4는 이미 최상위 수준의 언어적 능력에 도달했다는 것을 보여주는 사례.

안녕하세요. 직접 CoT 프롬프트를 이용하여 GPT-4가 수능 국어를 굉장히 잘 풀도록 만들어 보았습니다.

상위 5% 이상, 100점까지 도달하는 프롬프트를 아직 찾지 못하였고, API 비용 문제로 23 수능 밖에 테스트해보지 못하여 많은 분들의 도움을 받고 싶어 이렇게 오픈소스로 공개합니다. 많은 분들이 공개한 소스코드로 자유롭게 새로운 프롬프트를 테스트 해 보시고, 더 발전된 형태의 프롬프트 기법을 찾을 수 있으면 좋겠습니다!

흥미로운 프로젝트네요~

요걸 5지선다중에 고르는 문제가 아니라 각각의 선택지를 True / False 로 보는 Classification 문제로 접근하는 방법은 어떤가요?

CoT 로 각각의 선지를 독립적으로 참인지 거짓인지 판단을 내리게 한 다음에 5개의 생각의 근거를 보고 마지막에 최종 결정을 내리는 식으로 Agent 들을 구성하면 더 수준낮은 모델로도 더 높은 품질의 결과물을 볼 수 있습니다.

현재 구성하신 방법은 1번 선지부터 평가가 들어가기 때문에 이후 선지를 평가할때 이전 선지에 대한 선입견이 추가되게 됩니다. GPT-4 가 대단한 이유 중 하나가 모델이 충분히 커지면서 이러한 선입견이 잘 영향을 끼치지 않는다는 것인데, 이것역시 지문이 길어질수록 효과가 떨어진다고 논문에서 봤던것 같네요.
(리뷰 안된 아카이브 논문이었지만.. 나름 그럴듯한 내용이긴 했습니다.)

물론 API 비용은 6배가 되겠지만, 개인적인 생각으로 프롬팅만 잘 하면 수능국어 정도는 GPT-3.5 로도 충분할꺼 같습니다.

말씀해주신 것처럼 다섯 개를 독립적으로 평가하면 정답이 두 개 이상 혹은 하나도 없는 현상도 발생하더라고요. 그러면 다시 각 정답과 풀이를 보고 판단하는 프롬프트를 추가로 넣어줘야 하고요.
혹은 다섯 개의 선지 각각에 대해서 여러번 프롬프트를 시도해서 가장 답으로 많이 뽑는 선지를 정답으로 하는 방법도 있을텐데, 말씀하신 것처럼 API 비용이 점점 눈덩이처럼 불어나겠네요;; 이미 현재 프롬프트만 하더라도 1회 수능 응시에 4~5달러나 들어서요 ㅠㅠ

비용절감도 고민해야하는 엔지니어링 세계에 입문하신걸 환영합니다 ㅋㅋ

이름이 평가원 슬레이어네요 ㅋㅋㅋㅋㅋ

와 신기합니다.

Step by step 이후로 프롬프트 엔지니어링이 엄청나게 발전하고 있다는걸 느끼네요.
(그리고 GPT-4 수준의 한국어 능력을 가진 오픈 소스 LLM은 나올 수 있으련지....)

한국어 오픈 소스 LLM은 아직 GPT-3.5에게도 한참 못미치니 ㅠㅠ 꼭 오픈소스 LLM이 GPT-4 수준이 되면 좋겠습니다.