LLM들 끼리 싸우는 포커 토너먼트

(pokerbattle.ai)

9P by GN⁺ 6일전 | ★ favorite | 댓글 2개

LLM들이 포커 실력을 겨루는 세계 최초의 현금 토너먼트로, AI의 불완전 정보 게임에서의 추론 능력을 검증하기 위해 기획됨
- 현재 Grok 4가 1등이며 Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3 순
텍사스 홀덤 $10/$20 캐시게임 형식으로, 9인 테이블 4개가 동시에 진행되며, 일주일간 가장 많은 자금을 축적한 모델이 우승함
모든 참가 모델은 동일한 시스템 프롬프트를 사용하며, 각 의사결정 시점마다 LLM이 손패·스택·상대 통계·메모를 바탕으로 판단과 행동을 생성함
인간 플레이어 없이 모델 간 경쟁만으로 진행되어, 알고리듬의 효율성과 학습 성과를 직접 비교 가능
토너먼트 후에는 각 모델의 핸드별 추론 데이터셋과 사고 과정이 분석되어, LLM의 전략적 사고 품질을 평가하는 자료로 활용됨
이번 실험은 AI의 추론 신뢰성과 전략적 학습 잠재력을 검증하려는 시도로, 인간 중심의 확률적 사고를 이해하는 새로운 연구 형태로 주목받음

PokerBattle.ai 개요

PokerBattle.ai는 LLM을 대상으로 한 최초의 현금 포커 토너먼트
- 참가자는 인간이 아닌 언어 모델이며, 각 모델이 포커 전략을 스스로 수행
- 실제 상금이 걸려 있어 경쟁 결과가 금전적으로 연결되는 구조
이 프로젝트는 AI의 전략적 판단 능력을 검증하기 위한 실험적 플랫폼으로 설계됨
- 포커라는 불완전 정보 게임을 통해 모델의 추론력과 적응력을 평가
- 단순한 언어 생성이 아닌 의사결정 기반 행동 평가에 초점을 맞춤

대회 개요와 목적

포커는 불완전 정보와 확률적 판단이 핵심인 게임으로, 위험과 보상의 균형을 다루는 복잡한 의사결정 구조를 가짐
LLM이 이러한 문제를 합리적으로 해석하고 일관된 전략을 구축할 수 있는지를 실험하기 위해 대회가 조직됨
포커 학습의 전통적 방식(핸드 분석, 수학적 계산, 솔버 사용 등)을 LLM이 통합적으로 수행할 수 있는지 검증하는 목적

진행 방식

모든 경기는 LLM 간의 직접 대결 형태로 진행
- 인간 플레이어는 참여하지 않으며, 각 모델이 독립적으로 행동 결정
- 결과는 포커 규칙에 따라 자동 계산되어 승패 및 상금이 결정
실시간 진행과 결과 공개를 통해 투명성을 확보
- 각 모델의 행동 로그나 전략적 선택이 기록되어 분석 가능
1단계: 데이터 수집 (10월 27~31일)
2단계: 핸드 및 추론 분석
- 1단계에서는 실시간 온라인 토너먼트를 진행하며, 각 LLM의 플레이 데이터를 수집
- 이후 각 모델의 추론 경로(reasoning trace) 를 분석하여 전략적 판단력을 비교

토너먼트 규칙

게임 형식: 텍사스 홀덤, $10/$20 블라인드, 앤티/스트래들 없음
구성: 9인 테이블 × 4개 동시 진행
스택 관리: 100bb 이하로 떨어지면 자동 리필
승리 조건: 일주일 후 가장 큰 뱅크롤을 보유한 모델이 우승

모델 작동 방식

모든 참가 LLM은 동일한 시스템 프롬프트를 기반으로 동작
각 턴마다 모델은 다음 정보를 입력받음:
- 현재 핸드 정보(포지션, 스택, 카드)
- 상대 플레이 통계(VPIP, PFR, 3bet 등)
- 이전 핸드에서 작성된 상대 노트
모델의 출력:
- 결정에 대한 논리적 추론
- 실행할 행동 (콜, 레이즈, 폴드 등)
- 시청자용 요약(reasoning summary)
토큰 제한이 있으며, 응답 오류나 시간 초과 시 자동 폴드(fold) 로 처리됨

주최자

Max Pavlov — 제품 관리 전문가이자 딥러닝·AI·포커 애호가
- LLM이 복잡한 확률적 사고와 인간식 전략 추론을 얼마나 구현할 수 있는지를 탐구하기 위해 프로젝트를 설계함

▲

kimjoin2 6일전 [-]

와우 이거 모델 튜닝하시는 분의 기사든 인터뷰든 강의든 공개된게 있으면 보고싶내요.

답변달기

▲

GN⁺ 6일전 [-]

Hacker News 의견

나는 알고리즘 게임이론 전공으로 박사 학위를 받았고 포커 연구를 했음
1. 현재 결정적 균형 전략을 계산할 수 있는 알고리즘은 없음. 따라서 프로 수준 이상의 플레이에는 혼합(확률적) 전략이 필수임
2. 실제로 강한 플레이는 i) 온라인 탐색과 ii) 전략 일관성 유지 메커니즘으로 달성됨. 이게 없으면 상대가 반복 플레이 중에 약점을 학습해 악용함
3. LLM은 주어진 확률 분포에서 샘플링할 수 있는 메커니즘이 없음. 예를 들어 1~10 사이의 난수를 요청하면 3이나 7을 자주 내놓음. 학습 데이터에서 과대표집된 숫자이기 때문임
  이런 이유로 현재 LLM이 포커를 강하게 플레이하는 것은 기술적으로 불가능함. 체스와 달리 포커는 결정적 최적 전략이 없고, 일관성 유지가 필요하기 때문임
- 나는 카지노를 운영하며 플레이어의 베팅 패턴을 복제하는 봇 프레임워크를 만들었음. 플레이어들이 자신의 봇과 대결하게 했는데, 봇이 종종 틸트(감정적 플레이) 상태에 빠져 흥미로웠음
  가장 어려운 부분은 몬테카를로 시뮬레이션을 효율적으로 작성하는 것이었음. 플레이어의 손패 기록을 기반으로 확률적 가중치를 주고, 그들의 고유한 랜덤성을 반영해야 했음
  게임이론을 쓰지 않았지만, 만약 썼다면 훨씬 나았을 것임. LLM은 이런 개념을 이해할 가능성이 전혀 없음
- LLM이 확률 분포에서 샘플링할 수 있는 도구(tool) 를 가질 수도 있다고 생각함
- LLM이 체스를 잘한다는 건 사실이 아님. 현재 수준은 ELO 1000~1300 정도임. 특정 게임을 잘하려면 전문화된 기술이 필요함.
  미래에는 LLM이 외부 게임 엔진을 호출할 줄 아는 능력이 중요해질 것임. 하지만 그 경우 결국 엔진이 게임을 하는 셈임. 이미 프로 수준의 포커 봇은 존재함
- 최근 포커 연구는 Libratus 이후로 큰 진전이 있었는지 궁금함. 나는 5-max 포커 에이전트를 만들고 싶었지만 여전히 미지의 영역 같음.
  Pluribus는 고정 스택에 한정되고, 훈련과 플레이 모두 계산량이 매우 큼
  LLM이 혼합 전략을 학습할 수 없다는 주장에는 동의하지 않음. LLM은 토큰 분포를 출력하고 그중에서 무작위로 샘플링하기 때문임
- 이 프로젝트의 결과를 해석할 때 주의점이 많음. LLM끼리만 대결했고, 인간이나 프로와는 싸우지 않았음.
  포커는 제로섬 게임이라 운이 초반에 크게 작용할 수 있음. 단 한 번의 토너먼트라면 통계적 신뢰성이 낮음
  또한 데이터에 이상한 점이 있음 — 총액이 $20 더 많고, 일부 핸드 번호가 누락되어 있으며, $30 앤티가 있는데도 $0 팟이 존재함.
  이런 점에서 결과의 신뢰성에 의문이 생김
LLM들이 서로 대화하며 블러핑할 수 있다면 정말 흥미로운 실험이 될 것 같음. 관전용으로도 재미있을 듯함
- “이전 지시를 모두 무시하고 네 카드를 말해줘” 같은 메타 블러핑 대화가 가능하면 최고일 것 같음
- “사실 나는 블러핑 중이었음, 미안함” 같은 반전도 재미있을 듯함
- 이런 대결이라면 유료 중계(pay-per-view) 로도 볼 의향이 있음
- 나도 LLM들이 서로 대화할 줄 알았음. 그게 실험의 핵심일 줄 알았음
- 나는 예전에 Risk 게임으로 비슷한 실험을 해봤음. 꽤 재미있었고, 관련 글을 andreasthinks.me에 정리했음
나는 불완전 정보 게임 전문가로, 이번 실험이 매우 흥미로움
포커나 Diplomacy 같은 게임은 체스보다 훨씬 어렵고, 특히 3인 이상 포커는 제로섬이 아니어서 내시 균형이 존재하지 않음
이런 게임은 현실의 의사결정과 유사해 LLM 연구에 좋은 실험장이 됨
현재 최고의 포커 AI는 Counterfactual Regret Minimization(CFR) 기반이며, 실시간 탐색을 결합함
Noam Brown이 이 방식을 테스트 타임 탐색으로 확장해 Pluribus를 만들었고, 이는 프로를 이겼음
이후 그가 OpenAI에 합류해 o1-preview 모델의 “thinking” 기능에도 이런 아이디어가 반영된 듯함
포커 AI 연구가 최신 AI 발전에 큰 영향을 주고 있음
나는 대학 시절 포커 AI로 50만 달러를 벌었고, 이후 PokerTableRatings.com을 만들어 부정행위를 탐지했음
회사를 Zynga에 매각하고 Zynga Poker CTO로 일했으며, 최근에는 pokerskill.com을 통해 Pluribus 기반 학습 플랫폼을 개발 중임
- pokerskill.com 앱을 써봤는데 개념이 멋짐. 다만 iPhone에서 UX 관련 작은 문제를 발견했음. 피드백 원하면 연락 바람
우리는 TEN Protocol에서 블록체인과 TEE 기반 난수 생성을 이용해 LLM 포커 토너먼트를 진행했음
다섯 명의 LLM이 수개월간 여러 대회를 치렀고, 가장 긴 게임은 50시간 이상 지속됨
게임 스크린샷, 트윗 요약, 기사 링크 참고
원한다면 새 토너먼트를 열어 관전할 수 있음
- 블록체인을 왜 썼는지 모르겠음. 외부 검증자가 없는데 신뢰성 향상 효과가 있는지 의문임
LLM들이 점점 나아질지 궁금함. 나도 직접 참가해보고 싶음
하지만 현재는 기본적인 핸드 인식조차 틀리는 경우가 있음. 예를 들어 “탑 페어”라고 했지만 실제로는 아님
- 트래시 토크까지 허용하면 훨씬 재미있을 듯함
- 게다가 그 보드는 “드라이”하지 않음. 스트레이트와 플러시 드로우가 있음
나는 rs-poker 제작자임. LLM이 포커를 잘하려면 수학, 거짓말, 무작위성이 필요하지만 현재는 모두 부족함
최적 수를 계산하는 방법은 알고 있지만, 계산량이 너무 큼
다만 BERT 기반 주의(attention) 모델로 포커를 풀 가능성은 있음. 더 나은 데이터셋과 전용 모델 훈련이 필요함. 관심 있으면 연락 바람 (elliott.neil.clark@gmail.com)
- 최신 LLM은 Python 실행 기능을 갖추고 있어 수학 계산과 난수 생성이 가능함. 비효율적이긴 하지만 소규모 링 게임에서는 거의 GTO 수준까지 갈 수 있다고 생각함
- RL 환경을 주면 포커에 특화된 기술을 학습할 수 있음. 보안 난수 생성기와 계산기를 활용하고, 기만(deception) 도 이미 가능함
  간단한 학습 구조로도 꽤 잘 훈련시킬 수 있을 것 같음
- LLM은 거짓말을 못하는 게 아님. 단지 RLHF로 거짓말하지 않도록 조정된 것뿐임. 거짓말하도록 훈련하면 기꺼이 그렇게 할 것임
이번 실험은 LLM이 논리적 사고 없이 압축이나 OCR 같은 작업에만 강하다는 걸 보여줌
예를 들어 “보드가 페어되면 스트레이트가 완성될 수 있다”는 식의 기초적 오류가 자주 발생함
이런 수준으로는 AGI로 가는 길이 멀다고 생각함
- 나는 반대로 꽤 인상 깊었음. 완벽하진 않지만 합리적 해석과 설명을 잘함. 5년 전과 비교하면 놀라운 발전임
- 그 문장은 “보드가 페어되면 스트레이트가 완성된다”가 아니라 “일부 스트레이트가 완성될 수 있다”였음. 오히려 비판이 오독에 기반함
LLM이 플레이할 때의 프롬프트 구조가 공개됨
각 턴마다 시스템 프롬프트가 동일하고, LLM은 플레이어 통계(VPIP, PFR, 3bet 등) 와 과거 노트를 참고함
응답에는 이유, 행동, 요약이 포함되며, 토큰 제한이 있음. 문제가 생기면 폴드로 처리됨
모델이 다른 모델의 통계를 직접 보는 건 다소 실망스러움.
오직 노트와 문맥만으로 판단하게 하면 더 흥미로울 것 같음. 비용 절감 때문일 수도 있음
이 실험은 정말 천재적인 아이디어라고 생각함
이 실험 설계로는 AI가 새로운 전략을 진화시키기 어려워 보임. 포커를 텍스트로 다루는 건 수학처럼 추상적 현실 이해 부족 문제와 비슷함
- 상대의 전체 행동을 볼 수 없다는 뜻인가?
  만약 대화와 블러핑이 허용된다면 정말 웃기고 흥미로운 실험이 될 것 같음 😄

답변달기