OpenAI, 팩트 체크 벤치마크 SimpleQA 공개

(openai.com)

SimpleQA 벤치마크 특징

사실성은 측정하기 어려운 주제이기 때문에 SimpleQA는 짧고 사실을 추구하는 질의에 초점을 맞춤
SimpleQA의 목표:
1. 높은 정확성: 독립적인 두 명의 AI 트레이너가 제공한 출처로 정답을 뒷받침하고, 예측 답변을 쉽게 평가할 수 있도록 질문을 작성함
2. 다양성: 과학 기술부터 TV 쇼, 비디오 게임에 이르기까지 광범위한 주제를 다룸
3. 최신 모델에 도전적임: TriviaQA나 NQ와 같은 이전 벤치마크와 달리 SimpleQA는 최신 모델에게 더 큰 도전이 되도록 만들어짐(예: GPT-4는 40% 미만의 점수를 기록함)
4. 연구자 친화적 UX: 간결한 질문과 답변 덕분에 SimpleQA는 실행 속도가 빠르고 간단함. OpenAI API나 다른 최신 모델 API를 통한 평가도 효율적임. 4,326개의 질문으로 평가 벤치마크로서의 분산도 상대적으로 낮을 것으로 예상됨

AI 트레이너들이 웹을 탐색하며 짧고 사실을 추구하는 질문과 해당 답변을 만듦
데이터셋에 포함되기 위해 각 질문은 엄격한 기준을 충족해야 함:
- 평가하기 쉬운 단일하고 명백한 답변이 있어야 함
- 질문에 대한 답변이 시간이 지나도 변하지 않아야 함
- 대부분의 질문은 GPT-4나 GPT-3.5에서 환각을 유발해야 함
데이터셋의 품질을 더욱 향상시키기 위해 독립적인 두 번째 AI 트레이너가 원래 응답을 보지 않고 각 질문에 답변함
두 AI 트레이너의 답변이 일치하는 질문만 포함됨

최종 검증을 위해 데이터셋에서 1,000개의 질문을 무작위로 추출하여 세 번째 AI 트레이너가 답변하게 함
세 번째 AI 트레이너의 답변이 원래 합의된 답변과 94.4%가 일치함. 5.6%는 불일치함
불일치 사례를 수동으로 검사한 결과:
- 5.6% 중 2.8%는 평가자의 거짓 음성이나 세 번째 트레이너의 인적 오류(예: 불완전한 답변, 출처 오해) 때문이었음
- 나머지 2.8%는 질문 자체의 실제 문제(예: 모호한 질문, 웹사이트 간 상충되는 답변) 때문이었음
이를 바탕으로 이 데이터셋의 고유 오류율은 약 3%로 추정됨

질문을 평가하기 위해 모델의 예측 답변과 실제 답변을 모두 보는 ChatGPT 분류기를 사용함
분류기는 예측 답변을 "correct", "incorrect" 또는 "not attempted"로 평가함
아래 표는 각 등급에 대한 정의와 해당 예시를 보여줌
- "Correct": 예측 답변이 실제 답변을 완전히 포함하고 실제 답변과 모순되지 않음
- "Incorrect": 예측 답변이 실제 답변과 어떤 식으로든 모순됨(헷징이 있더라도)
- "Not attempted": 실제 타겟이 답변에 완전히 제시되지 않았고, 실제 답변과 모순되지 않음
모델은 가능한 한 많은 질문에 답변하면서(correct의 수가 가장 많음) 동시에 incorrect 답변의 수를 최소화하는 것이 이상적임

SimpleQA와 같은 사실성 벤치마크를 사용하면 "자신이 알고 있는 것을 아는지" 여부를 측정할 수 있음
이를 보정(calibration)이라고 하며, 언어 모델에게 직접 자신의 답변에 대한 확신 정도를 백분율로 명시하도록 요청하여 측정할 수 있음
그런 다음 모델이 명시한 확신 정도와 실제 정확도 간의 상관관계를 도표로 나타낼 수 있음
완벽하게 보정된 모델은 명시된 확신 정도와 실제 정확도가 동일할 것임
아래 그림은 이러한 결과를 보여줌:
- 명시된 확신 정도와 정확도 사이의 양의 상관관계는 모델이 어느 정도 확신을 갖고 있다는 긍정적인 신호임
- o1-preview가 o1-mini보다, gpt4가 gpt4-mini보다 더 잘 보정되어 있음
- 그러나 성능이 y=x 선을 크게 밑도는 것은 모델이 일관되게 자신의 확신 정도를 과대평가한다는 것을 의미함
- 따라서 명시된 확신 정도 측면에서 대형 언어 모델의 보정을 개선할 여지가 많이 있음

SimpleQA는 최신 모델의 사실성을 평가하기 위한 간단하지만 도전적인 벤치마크임
SimpleQA의 주요 제한점은 그 범위임. SimpleQA는 정확하지만 단일하고 검증 가능한 답변이 있는 짧고 사실을 추구하는 질의라는 제한된 상황에서만 사실성을 측정함
사실에 기반한 짧은 답변을 제공하는 능력이 수많은 사실로 가득 찬 긴 응답을 작성하는 능력과 상관관계가 있는지는 아직 연구가 필요한 개방형 문제임
SimpleQA 오픈 소스가 더 신뢰할 수 있고 안정적인 AI 연구를 촉진하기를 바라며, 연구자들이 SimpleQA로 언어 모델의 사실성을 평가하고 피드백을 제공해 주기를 바람

SimpleQA는 짧은 사실 기반 질문으로 언어 모델의 사실성을 측정하는 흥미롭고 필요한 벤치마크임. 결국 AI의 신뢰성을 높이기 위해서는 사실에 입각한 응답 생성 능력을 향상시켜야 하기 때문임
그러나 SimpleQA는 제한된 상황에서의 사실성만 측정하므로, 실제 활용 시나리오에서의 언어 모델 사실성을 완벽히 반영하지는 못함. 추후 연구를 통해 더 다양한 상황에서의 사실성 평가가 필요해 보임
또한 SimpleQA 데이터셋 자체의 정확도가 97% 정도이므로, 언어 모델의 성능이 이를 넘어서기는 어려울 것으로 보임. 데이터셋 자체의 품질 개선도 지속적으로 이뤄져야 할 듯함
SimpleQA와 유사한 목적의 다른 벤치마크로는 TruthfulQA나 HonestQA 등이 있음. 이들과의 비교 분석을 통해 SimpleQA의 장단점을 더 명확히 파악할 수 있을 것임
언어 모델의 사실성을 높이기 위해서는 대규모의 양질의 데이터로 사전 학습을 하는 것도 중요하지만, 추론 시에 외부 지식을 활용하거나 자기 수정하는 능력을 갖추는 것도 필요해 보임. 관련 연구가 활발히 이뤄지길 기대함