# 당신은 언어 모델보다 다음 단어 예측 능력이 뛰어난가요?

> Clean Markdown view of GeekNews topic #16368. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16368](https://news.hada.io/topic?id=16368)
- GeekNews Markdown: [https://news.hada.io/topic/16368.md](https://news.hada.io/topic/16368.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-19T09:53:54+09:00
- Updated: 2024-08-19T09:53:54+09:00
- Original source: [joel.tools](https://joel.tools/smarter/)
- Points: 8
- Comments: 3

## Summary

언어 모델과 인간의 다음 단어 예측 능력을 비교하는 흥미로운 실험을 소개합니다. 15개의 문제를 통해 자신의 예측 능력을 테스트해볼 수 있습니다. 이를 통해 언어 모델의 성능과 자신의 능력을 직접 비교해보는 재미를 느낄 수 있습니다. 사실 뒷 문장이 아예 생략되어서 거의 때려 맞추는 수준이라 너무 좌절하지 마세요.

## Topic Body

"언어 모델보다 더 똑똑한가요?"  
  
많은 벤치마크가 언어 모델이 인간의 작업을 얼마나 잘 수행하는지 평가하려고 합니다.   
하지만 당신은 다음 단어를 예측하는 전형적인 언어 모델 작업에서 얼마나 잘할 수 있을까요?  
  
15개의 문제를 풀어보세요

## Comments


### Comment 28099

- Author: curioe
- Created: 2024-08-19T10:52:02+09:00
- Points: 1

4점... 결과가 킹받네요

### Comment 28098

- Author: xguru
- Created: 2024-08-19T10:35:47+09:00
- Points: 1

오 맙소사. 영어 문제 풀듯이 푸니까 점수가 너무 안나오네요 ㅠ

### Comment 28096

- Author: neo
- Created: 2024-08-19T09:53:54+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41277179) 
- "스마트"라는 제목에서 기대한 것과는 다르지만, 흥미로운 아이디어임
  - 한 번에 하나의 질문만 보여주고, 각 답변 후 즉각적인 피드백을 제공하는 것이 더 좋을 것임
  - 이렇게 하면 더 몰입감이 높아지고, 정답을 바로 확인할 수 있어 유익함

- Hacker News 댓글에서 다음 단어를 맞추는 게임/퀴즈를 만듦
  - llama2를 사용해 각 댓글에 대해 세 가지 대체 완성을 생성하여 다중 선택 질문을 만듦
  - 로컬 언어 모델은 프롬프트와 답변의 총 당혹도(perplexity)가 가장 낮은 답변을 선택함
  - OpenAI 모델은 logit_bias를 설정해 허용된 답변 중 하나만 선택하도록 함
  - Claude나 다른 온라인 LLM과는 비교할 수 없었음
  - 퀴즈가 재미있다고는 할 수 없지만, 50% 이상의 정답률을 꾸준히 유지할 수 있었음

- 언어 모델이 선택할 가능성이 가장 낮은 단어를 선택하는 것이 이기는 전략임
  - "이상치(outlier)"를 선택하는 것이 최선의 전략임
  - 이는 AI 콘텐츠를 감지하는 간단한 전략이 될 수 있음

- 결과를 보면, 주어진 정보로 다음 단어를 정확히 예측하는 것은 불가능함
  - 답변을 가능성에 따라 정렬하고, 정답을 얼마나 높게 순위 매겼는지에 따라 점수를 매기면 무작위보다 나을 것임
  - LLM이 원래 저자의 목소리를 모방하려고 했는지 궁금함

- 이 게임은 HN 댓글을 너무 많이 읽는지 확인하는 좋은 테스트임

- 매번 무작위 퀴즈를 받기 때문에 결과를 비교할 수 없음
  - 평균적인 사람이 LLM을 이길 수 있는 코퍼스를 찾고, Wordle 스타일의 일일 챌린지와 소셜 공유 기능을 추가하면 바이럴 가능성이 있음

- HN에서 보낸 시간 덕분에 AI보다 약간 더 나은 예측을 할 수 있었음

- 100문제 퀴즈에 도전하는 사람들에게: 전통적인 통계 기준으로는 3분의 1 이상 맞춰야 추측보다 나은 것으로 간주됨
  - LLM보다 나으려면 절반 이상 맞춰야 함

- 샘플이 HN에서 나왔다면, 텍스트가 이미 데이터셋의 일부일 가능성이 있음
  - 최근 댓글을 보면 그렇지 않을 가능성이 높음
  - ChatGPT가 Bing 검색 도구를 사용할 수 있지만, gpt4o-mini API 모델이 그렇게 할 가능성은 낮음

- 일부는 더 큰 맥락에서 발췌한 것으로, LLM이 예측에 유리한 위치에 있음