# OpenAI, 팩트 체크 벤치마크 SimpleQA 공개

> Clean Markdown view of GeekNews topic #17552. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17552](https://news.hada.io/topic?id=17552)
- GeekNews Markdown: [https://news.hada.io/topic/17552.md](https://news.hada.io/topic/17552.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-02T10:31:02+09:00
- Updated: 2024-11-02T10:31:02+09:00
- Original source: [openai.com](https://openai.com/index/introducing-simpleqa/)
- Points: 6
- Comments: 0

## Summary

SimpleQA는 언어 모델의 사실성을 평가하기 위한 새로운 벤치마크로, 다양한 주제에 대한 짧고 사실적인 질문을 통해 모델의 정확성을 측정합니다. 이 벤치마크는 최신 모델에게 도전적이며, 연구자들이 언어 모델의 신뢰성을 높이는 데 기여할 수 있도록 설계되었습니다.

## Topic Body

- SimpleQA는 언어 모델의 사실성을 측정하기 위한 새로운 벤치마크  
- 인공지능에서 사실에 기반한 응답을 생성하는 모델을 학습시키는 것은 아직 해결되지 않은 문제임  
- 현재 언어 모델은 때로는 거짓된 출력이나 증거로 뒷받침되지 않는 응답을 생성함. 이를 "hallucinations(환각)"이라고 함  
- 더 정확하고 환각이 적은 언어 모델은 더 신뢰할 수 있고 다양한 응용 분야에 활용될 수 있음  
- SimpleQA 오픈 소스를 통해 언어 모델의 사실성을 측정하고자 함  
  
### SimpleQA 벤치마크 특징  
- 사실성은 측정하기 어려운 주제이기 때문에 SimpleQA는 짧고 사실을 추구하는 질의에 초점을 맞춤   
- SimpleQA의 목표:  
   1. 높은 정확성: 독립적인 두 명의 AI 트레이너가 제공한 출처로 정답을 뒷받침하고, 예측 답변을 쉽게 평가할 수 있도록 질문을 작성함  
   2. 다양성: 과학 기술부터 TV 쇼, 비디오 게임에 이르기까지 광범위한 주제를 다룸   
   3. 최신 모델에 도전적임: TriviaQA나 NQ와 같은 이전 벤치마크와 달리 SimpleQA는 최신 모델에게 더 큰 도전이 되도록 만들어짐(예: GPT-4는 40% 미만의 점수를 기록함)  
   4. 연구자 친화적 UX: 간결한 질문과 답변 덕분에 SimpleQA는 실행 속도가 빠르고 간단함. OpenAI API나 다른 최신 모델 API를 통한 평가도 효율적임. 4,326개의 질문으로 평가 벤치마크로서의 분산도 상대적으로 낮을 것으로 예상됨  
  
### SimpleQA 데이터셋 생성 과정  
- AI 트레이너들이 웹을 탐색하며 짧고 사실을 추구하는 질문과 해당 답변을 만듦  
- 데이터셋에 포함되기 위해 각 질문은 엄격한 기준을 충족해야 함:  
   - 평가하기 쉬운 단일하고 명백한 답변이 있어야 함  
   - 질문에 대한 답변이 시간이 지나도 변하지 않아야 함   
   - 대부분의 질문은 GPT-4나 GPT-3.5에서 환각을 유발해야 함  
- 데이터셋의 품질을 더욱 향상시키기 위해 독립적인 두 번째 AI 트레이너가 원래 응답을 보지 않고 각 질문에 답변함  
- 두 AI 트레이너의 답변이 일치하는 질문만 포함됨  
  
### SimpleQA 데이터셋 품질 검증  
- 최종 검증을 위해 데이터셋에서 1,000개의 질문을 무작위로 추출하여 세 번째 AI 트레이너가 답변하게 함  
- 세 번째 AI 트레이너의 답변이 원래 합의된 답변과 94.4%가 일치함. 5.6%는 불일치함  
- 불일치 사례를 수동으로 검사한 결과:  
   - 5.6% 중 2.8%는 평가자의 거짓 음성이나 세 번째 트레이너의 인적 오류(예: 불완전한 답변, 출처 오해) 때문이었음   
   - 나머지 2.8%는 질문 자체의 실제 문제(예: 모호한 질문, 웹사이트 간 상충되는 답변) 때문이었음  
- 이를 바탕으로 이 데이터셋의 고유 오류율은 약 3%로 추정됨  
  
### SimpleQA의 질문 다양성  
- 아래 원형 차트는 SimpleQA 벤치마크의 주제 다양성을 보여줌  
- 원형 차트에서 각 부분에 마우스를 올리면 각 질문의 예시가 표시됨  
  
### SimpleQA를 사용한 언어 모델 비교   
- 질문을 평가하기 위해 모델의 예측 답변과 실제 답변을 모두 보는 ChatGPT 분류기를 사용함  
- 분류기는 예측 답변을 "correct", "incorrect" 또는 "not attempted"로 평가함  
- 아래 표는 각 등급에 대한 정의와 해당 예시를 보여줌   
   - "Correct": 예측 답변이 실제 답변을 완전히 포함하고 실제 답변과 모순되지 않음  
   - "Incorrect": 예측 답변이 실제 답변과 어떤 식으로든 모순됨(헷징이 있더라도)  
   - "Not attempted": 실제 타겟이 답변에 완전히 제시되지 않았고, 실제 답변과 모순되지 않음  
- 모델은 가능한 한 많은 질문에 답변하면서(correct의 수가 가장 많음) 동시에 incorrect 답변의 수를 최소화하는 것이 이상적임  
  
### SimpleQA를 사용한 언어 모델 보정(calibration) 측정  
- SimpleQA와 같은 사실성 벤치마크를 사용하면 "자신이 알고 있는 것을 아는지" 여부를 측정할 수 있음  
- 이를 보정(calibration)이라고 하며, 언어 모델에게 직접 자신의 답변에 대한 확신 정도를 백분율로 명시하도록 요청하여 측정할 수 있음  
- 그런 다음 모델이 명시한 확신 정도와 실제 정확도 간의 상관관계를 도표로 나타낼 수 있음  
- 완벽하게 보정된 모델은 명시된 확신 정도와 실제 정확도가 동일할 것임  
- 아래 그림은 이러한 결과를 보여줌:  
   - 명시된 확신 정도와 정확도 사이의 양의 상관관계는 모델이 어느 정도 확신을 갖고 있다는 긍정적인 신호임  
   - o1-preview가 o1-mini보다, gpt4가 gpt4-mini보다 더 잘 보정되어 있음  
   - 그러나 성능이 y=x 선을 크게 밑도는 것은 모델이 일관되게 자신의 확신 정도를 과대평가한다는 것을 의미함  
   - 따라서 명시된 확신 정도 측면에서 대형 언어 모델의 보정을 개선할 여지가 많이 있음  
  
### 결론  
- SimpleQA는 최신 모델의 사실성을 평가하기 위한 간단하지만 도전적인 벤치마크임   
- SimpleQA의 주요 제한점은 그 범위임. SimpleQA는 정확하지만 단일하고 검증 가능한 답변이 있는 짧고 사실을 추구하는 질의라는 제한된 상황에서만 사실성을 측정함  
- 사실에 기반한 짧은 답변을 제공하는 능력이 수많은 사실로 가득 찬 긴 응답을 작성하는 능력과 상관관계가 있는지는 아직 연구가 필요한 개방형 문제임  
- SimpleQA 오픈 소스가 더 신뢰할 수 있고 안정적인 AI 연구를 촉진하기를 바라며, 연구자들이 SimpleQA로 언어 모델의 사실성을 평가하고 피드백을 제공해 주기를 바람  
  
### GN⁺의 의견  
- SimpleQA는 짧은 사실 기반 질문으로 언어 모델의 사실성을 측정하는 흥미롭고 필요한 벤치마크임. 결국 AI의 신뢰성을 높이기 위해서는 사실에 입각한 응답 생성 능력을 향상시켜야 하기 때문임  
- 그러나 SimpleQA는 제한된 상황에서의 사실성만 측정하므로, 실제 활용 시나리오에서의 언어 모델 사실성을 완벽히 반영하지는 못함. 추후 연구를 통해 더 다양한 상황에서의 사실성 평가가 필요해 보임  
- 또한 SimpleQA 데이터셋 자체의 정확도가 97% 정도이므로, 언어 모델의 성능이 이를 넘어서기는 어려울 것으로 보임. 데이터셋 자체의 품질 개선도 지속적으로 이뤄져야 할 듯함  
- SimpleQA와 유사한 목적의 다른 벤치마크로는 TruthfulQA나 HonestQA 등이 있음. 이들과의 비교 분석을 통해 SimpleQA의 장단점을 더 명확히 파악할 수 있을 것임  
- 언어 모델의 사실성을 높이기 위해서는 대규모의 양질의 데이터로 사전 학습을 하는 것도 중요하지만, 추론 시에 외부 지식을 활용하거나 자기 수정하는 능력을 갖추는 것도 필요해 보임. 관련 연구가 활발히 이뤄지길 기대함

## Comments


_No public comments on this page._