GN⁺: 당신은 언어 모델보다 다음 단어 예측 능력이 뛰어난가요?
(joel.tools)"언어 모델보다 더 똑똑한가요?"
많은 벤치마크가 언어 모델이 인간의 작업을 얼마나 잘 수행하는지 평가하려고 합니다.
하지만 당신은 다음 단어를 예측하는 전형적인 언어 모델 작업에서 얼마나 잘할 수 있을까요?
15개의 문제를 풀어보세요
Hacker News 의견
-
"스마트"라는 제목에서 기대한 것과는 다르지만, 흥미로운 아이디어임
- 한 번에 하나의 질문만 보여주고, 각 답변 후 즉각적인 피드백을 제공하는 것이 더 좋을 것임
- 이렇게 하면 더 몰입감이 높아지고, 정답을 바로 확인할 수 있어 유익함
-
Hacker News 댓글에서 다음 단어를 맞추는 게임/퀴즈를 만듦
- llama2를 사용해 각 댓글에 대해 세 가지 대체 완성을 생성하여 다중 선택 질문을 만듦
- 로컬 언어 모델은 프롬프트와 답변의 총 당혹도(perplexity)가 가장 낮은 답변을 선택함
- OpenAI 모델은 logit_bias를 설정해 허용된 답변 중 하나만 선택하도록 함
- Claude나 다른 온라인 LLM과는 비교할 수 없었음
- 퀴즈가 재미있다고는 할 수 없지만, 50% 이상의 정답률을 꾸준히 유지할 수 있었음
-
언어 모델이 선택할 가능성이 가장 낮은 단어를 선택하는 것이 이기는 전략임
- "이상치(outlier)"를 선택하는 것이 최선의 전략임
- 이는 AI 콘텐츠를 감지하는 간단한 전략이 될 수 있음
-
결과를 보면, 주어진 정보로 다음 단어를 정확히 예측하는 것은 불가능함
- 답변을 가능성에 따라 정렬하고, 정답을 얼마나 높게 순위 매겼는지에 따라 점수를 매기면 무작위보다 나을 것임
- LLM이 원래 저자의 목소리를 모방하려고 했는지 궁금함
-
이 게임은 HN 댓글을 너무 많이 읽는지 확인하는 좋은 테스트임
-
매번 무작위 퀴즈를 받기 때문에 결과를 비교할 수 없음
- 평균적인 사람이 LLM을 이길 수 있는 코퍼스를 찾고, Wordle 스타일의 일일 챌린지와 소셜 공유 기능을 추가하면 바이럴 가능성이 있음
-
HN에서 보낸 시간 덕분에 AI보다 약간 더 나은 예측을 할 수 있었음
-
100문제 퀴즈에 도전하는 사람들에게: 전통적인 통계 기준으로는 3분의 1 이상 맞춰야 추측보다 나은 것으로 간주됨
- LLM보다 나으려면 절반 이상 맞춰야 함
-
샘플이 HN에서 나왔다면, 텍스트가 이미 데이터셋의 일부일 가능성이 있음
- 최근 댓글을 보면 그렇지 않을 가능성이 높음
- ChatGPT가 Bing 검색 도구를 사용할 수 있지만, gpt4o-mini API 모델이 그렇게 할 가능성은 낮음
-
일부는 더 큰 맥락에서 발췌한 것으로, LLM이 예측에 유리한 위치에 있음