# LLM과 체스에서 발생하는 이상 현상

> Clean Markdown view of GeekNews topic #17779. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17779](https://news.hada.io/topic?id=17779)
- GeekNews Markdown: [https://news.hada.io/topic/17779.md](https://news.hada.io/topic/17779.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-15T17:33:11+09:00
- Updated: 2024-11-15T17:33:11+09:00
- Original source: [dynomight.substack.com](https://dynomight.substack.com/p/chess)
- Points: 1
- Comments: 1

## Topic Body

- ### LLM과 체스의 이상한 현상

  - LLM(대형 언어 모델)이 체스를 잘할 수 있는지에 대한 논의가 있었음. LLM은 언어 예측을 위해 설계되었지만, 체스 게임을 예측할 수 있는 능력을 보여줌.
  - LLM이 체스 게임의 끝까지 진행할 수 있다는 사실이 흥미로웠음. 이는 LLM이 다른 상황에서도 어떻게 작동하는지에 대한 힌트일 수 있음.

- ### 내가 한 일

  - LLM에게 체스를 하도록 하기 위해 특정 프롬프트를 사용함. 예를 들어, "당신은 체스 그랜드마스터입니다. 다음 수를 선택하세요."라는 식으로 요청함.
  - `llama-3.2-3b` 모델을 사용하여 50개의 게임을 진행했으나, 결과는 좋지 않았음. 더 큰 모델인 `llama-3.1-70b`와 `llama-3.1-70b-instruct`도 시도했으나 여전히 좋지 않았음.
  - `gpt-3.5-turbo-instruct` 모델은 매우 우수한 성능을 보였음. 그러나 다른 모델들은 모두 좋지 않은 결과를 보였음.

- ### 논의

  - 많은 사람들이 LLM을 사용하여 체스를 시도했으나, 대부분의 모델이 좋은 결과를 내지 못함.
  - `gpt-3.5-turbo-instruct` 모델이 다른 모델보다 체스를 잘하는 이유에 대한 여러 이론이 있음.
  - 추가적인 지시 튜닝이 모델의 성능을 저하시킬 수 있다는 이론이 있음.

- ### 가능한 이론

  - **이론 1**: 기본 모델이 충분한 규모에서 체스를 할 수 있지만, 지시 튜닝이 이를 방해함.
  - **이론 2**: `gpt-3.5-instruct`가 더 많은 체스 게임으로 훈련되었을 가능성.
  - **이론 3**: 다른 변환기 아키텍처의 차이점이 있을 수 있음.
  - **이론 4**: 데이터 유형 간의 "경쟁"이 있을 수 있음.

- ### 세부 사항

  - 체스 게임을 위한 표준 대수 표기법을 사용하여 실험을 진행함.
  - OpenAI 모델은 완전한 문법 지원이 없어, 합법적인 수를 생성할 때까지 최대 10번 시도함.

- ### 토큰 이상 현상

  - 프롬프트에 공백이 포함되면 모델의 성능이 크게 저하됨. 이는 토크나이저의 문제로 보임.
  - 올바른 방법은 "토큰 힐링"을 사용하는 것이지만, 이를 쉽게 구현할 방법을 찾지 못함.

## Comments


### Comment 31325

- Author: neo
- Created: 2024-11-15T17:33:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42138289) 
- OpenAI가 체스를 중요한 기준으로 삼고 gpt-3.5-turbo-instruct에 특별한 처리를 했지만, 후속 모델에는 추가하지 않았다는 가능성을 간과한 것 같음
  - 체스는 지속적인 언론 보도를 생성하지 않았기 때문일 수 있음

- Q5_K_M 양자화로 모든 오픈 모델을 실행했지만, 이는 모든 매개변수의 손실 압축일 뿐 중요하지 않다고 생각함

- 교육받은 사람들이 LLM이 체스를 잘할 것이라고 기대하는 이유를 이해하지 못함
  - 체스는 실제 추론과 결정론적 계산이 필요함

- 좋은 결과가 반복 가능한지 궁금함
  - 과거에 좋은 결과를 얻었지만 다시 재현할 수 없었음
  - 벤처 캐피털의 경제학은 "속임수"로 여겨지는 기술을 정당화해야 하는 압박을 의미함

- 정말 지능적인 모델을 원한다면 토큰화를 중단해야 할지도 모른다고 생각함
  - 정보 스트림의 구조를 제한함으로써 모델의 시각과 인식을 제한하고 있음

- gpt-3.5-turbo-instruct가 체스에서 더 뛰어나다는 실험 결과를 발견함
  - 관련 실험 링크: [GPTsChessEloRatingLegalMoves](https://blog.mathieuacher.com/GPTsChessEloRatingLegalMoves/)

- 체스를 배우는 것이 순서를 배우는 것이라면 문제가 발생할 수 있음
  - 현대 체스 엔진은 최소한 모든 플레이어와 무승부를 기록할 수 있음

- 문제 탐색 공간에서 계산을 늘리는 것을 시도해볼 수 있음
  - 초보 체스 플레이어가 할 수 있는 단계별 지침을 제공하여 다양한 매개변수를 조정할 수 있음

- GPT-3.5-instruct가 전통적인 체스 엔진을 호출하여 체스를 플레이할 수 있다는 이론이 있음

- 다양한 인간 경험에서 다양한 유형의 기술과 지능이 존재함을 알고 있음
  - 모델이 체스를 잘하는 것은 우연히 적절한 '연결체'를 가졌기 때문일 수 있음