8P by neo 1달전 | favorite | 댓글 3개

"언어 모델보다 더 똑똑한가요?"

많은 벤치마크가 언어 모델이 인간의 작업을 얼마나 잘 수행하는지 평가하려고 합니다.
하지만 당신은 다음 단어를 예측하는 전형적인 언어 모델 작업에서 얼마나 잘할 수 있을까요?

15개의 문제를 풀어보세요

4점... 결과가 킹받네요

오 맙소사. 영어 문제 풀듯이 푸니까 점수가 너무 안나오네요 ㅠ

Hacker News 의견
  • "스마트"라는 제목에서 기대한 것과는 다르지만, 흥미로운 아이디어임

    • 한 번에 하나의 질문만 보여주고, 각 답변 후 즉각적인 피드백을 제공하는 것이 더 좋을 것임
    • 이렇게 하면 더 몰입감이 높아지고, 정답을 바로 확인할 수 있어 유익함
  • Hacker News 댓글에서 다음 단어를 맞추는 게임/퀴즈를 만듦

    • llama2를 사용해 각 댓글에 대해 세 가지 대체 완성을 생성하여 다중 선택 질문을 만듦
    • 로컬 언어 모델은 프롬프트와 답변의 총 당혹도(perplexity)가 가장 낮은 답변을 선택함
    • OpenAI 모델은 logit_bias를 설정해 허용된 답변 중 하나만 선택하도록 함
    • Claude나 다른 온라인 LLM과는 비교할 수 없었음
    • 퀴즈가 재미있다고는 할 수 없지만, 50% 이상의 정답률을 꾸준히 유지할 수 있었음
  • 언어 모델이 선택할 가능성이 가장 낮은 단어를 선택하는 것이 이기는 전략임

    • "이상치(outlier)"를 선택하는 것이 최선의 전략임
    • 이는 AI 콘텐츠를 감지하는 간단한 전략이 될 수 있음
  • 결과를 보면, 주어진 정보로 다음 단어를 정확히 예측하는 것은 불가능함

    • 답변을 가능성에 따라 정렬하고, 정답을 얼마나 높게 순위 매겼는지에 따라 점수를 매기면 무작위보다 나을 것임
    • LLM이 원래 저자의 목소리를 모방하려고 했는지 궁금함
  • 이 게임은 HN 댓글을 너무 많이 읽는지 확인하는 좋은 테스트임

  • 매번 무작위 퀴즈를 받기 때문에 결과를 비교할 수 없음

    • 평균적인 사람이 LLM을 이길 수 있는 코퍼스를 찾고, Wordle 스타일의 일일 챌린지와 소셜 공유 기능을 추가하면 바이럴 가능성이 있음
  • HN에서 보낸 시간 덕분에 AI보다 약간 더 나은 예측을 할 수 있었음

  • 100문제 퀴즈에 도전하는 사람들에게: 전통적인 통계 기준으로는 3분의 1 이상 맞춰야 추측보다 나은 것으로 간주됨

    • LLM보다 나으려면 절반 이상 맞춰야 함
  • 샘플이 HN에서 나왔다면, 텍스트가 이미 데이터셋의 일부일 가능성이 있음

    • 최근 댓글을 보면 그렇지 않을 가능성이 높음
    • ChatGPT가 Bing 검색 도구를 사용할 수 있지만, gpt4o-mini API 모델이 그렇게 할 가능성은 낮음
  • 일부는 더 큰 맥락에서 발췌한 것으로, LLM이 예측에 유리한 위치에 있음