GN⁺: LLM 체스 이상 현상 부분적 설명 가능성
(dynomight.net)-
최근 대형 언어 모델(LLM)이 체스를 잘 못한다는 미스터리가 있었음. 그러나 gpt-3.5-turbo-instruct는 예외적으로 아마추어 수준에서 체스를 잘 플레이함. 이 모델은 다른 최신 모델보다 오래되었고 크기도 작음.
-
여러 이론이 제시됨:
- 이론 1: 충분히 큰 기본 모델은 체스를 잘하지만, 채팅 모델로의 지시 조정에서는 그렇지 않음.
- 이론 2: gpt-3.5-turbo-instruct가 더 많은 체스 데이터를 학습했을 가능성.
- 이론 3: 특정 LLM 아키텍처에 무언가 특별한 것이 있음.
- 이론 4: 데이터 유형 간의 "경쟁"이 있어, LLM이 체스를 잘하려면 체스 게임 데이터가 많아야 함.
- 이론 5: OpenAI가 속임수를 쓴다는 주장.
- 이론 6: LLM은 실제로 체스를 할 수 없다는 주장.
-
OpenAI가 속임수를 쓴다는 주장은 믿기 어려움. gpt-3.5-turbo-instruct는 체스 엔진과 다르게 움직임을 선택하며, 전문가 기준으로는 뛰어나지 않음.
-
LLM은 체스를 할 수 있음. gpt-3.5-turbo-instruct는 불법적인 움직임을 거의 제안하지 않으며, 새로운 보드 상태에서도 잘 플레이함.
-
gpt-3.5-turbo-instruct는 "완성" 모델로, 텍스트를 받아 새로운 텍스트를 생성함. gpt-4o-mini와 gpt-4o는 "채팅" 모델로, 시스템 프롬프트와 사용자 프롬프트를 사용함.
-
다양한 실험을 통해 프롬프트 조정, 예제 추가, 미세 조정 등이 모델 성능에 영향을 미칠 수 있음을 확인함.
-
예제 추가는 성능에 큰 영향을 미쳤으며, 미세 조정도 도움이 됨. 그러나 법적 움직임 제공은 성능을 저하시킴.
-
gpt-4o를 "완성" 모드처럼 작동하게 유도하면 성능이 향상됨. 이는 gpt-4-base가 체스를 잘할 가능성을 시사함.
-
결론적으로, OpenAI의 기본 모델은 더 많은 체스 데이터를 학습했을 가능성이 높으며, 채팅 모델은 완성 모델보다 성능이 떨어질 수 있음.
-
최적의 프롬프트와 예제, 미세 조정을 찾는 것은 어렵고 비용이 많이 드는 작업임.
Hacker News 의견
-
작성자는 불법적인 움직임의 빈도에 대한 데이터를 제공하지 않아 의미 있는 결론을 내리기 어려움
- 예를 들어, LLM이 전문가 수준의 의사라고 주장하면서 잘못된 의료 조언을 제외한 데이터를 제공하는 것과 비슷함
-
gpt-3.5-turbo-instruct는 후반전에서도 불법적인 움직임을 거의 제안하지 않음
- 이 모델이 체스를 "이해"하고 "논리적 사고"를 할 수 있다고 주장됨
- "고급 아마추어" 체스 플레이어가 불법적인 움직임을 하는 경우는 드물다는 점에서 의문을 제기함
-
체스를 이해하는지 테스트하는 방법으로 1000개의 무작위 합법적인 위치에서 다음 움직임을 하게 함
- ChessPositionRanking 프로젝트를 통해 생성된 위치에서 불법적인 움직임을 제안하지 않는지 확인함
- 이러한 위치는 다음 움직임의 합법성을 테스트하는 데 유용하지만, 품질을 구별하는 데는 덜 유용함
-
모든 사람이 틀린 것은 아님
- 출판된 벤치마크가 훈련 중에 특정 타겟이 된다고 가정해야 함
- OpenAI가 훈련 데이터에 체스 게임을 포함시키는 것이 자연스러움
-
LLM은 마치 주문을 찾는 것처럼 느껴짐
- 기술 혁신이 계속되기를 바라며, LLM이 놀랍지만 때로는 SF 영화처럼 느껴짐
-
코드 샘플로 훈련하면 "추론"이 향상된다고 주장됨
- "언어에서 세계 모델"로의 논문이 작동한다면 체스가 가장 작은 사례여야 함
-
gpt-3.5-turbo-instruct가 체스 표기법을 인식하고 외부 체스 엔진을 호출하는 특별한 경우가 있을 수 있음
- 특정 모델이 체스 표기법을 인식할 때 다른 LLM으로 전환되도록 훈련되었을 가능성 제기
-
LLM이 게임을 이기도록 명시적으로 지시하지 않았음에도 결과가 측정됨
- "당신은 체스 그랜드마스터입니다"라는 프롬프트에 내포된 것인지 의문을 제기함
-
세부 조정이 도움이 되며, 예제가 세부 조정을 대체할 수 있음
- 예제를 제공하는 것이 세부 조정과 동등한 효과를 낼 수 있다는 점에서 흥미로움
-
프롬프트를 생각하지 않고 LLM과 체스를 두는 것이 재미있을 것임
- LLM이 어떻게 "생각"하는지 느낄 수 있는 새로운 방법이 될 수 있음