매직 더 개더링 드래프트에서 미스트랄 7B의 세밀한 조

▲

GN⁺ 2023-12-08 | parent | ★ favorite | on: 매직 더 개더링 드래프트에서 미스트랄 7B의 세밀한 조정(generallyintelligent.substack.com)

Hacker News 의견

LLM의 미세 조정에서 단순한 개념조차 어렵게 실현될 수 있음을 보여주는 점이 인상적임. 양질의 초기 데이터셋과 모델을 가지고도 이는 도전적인 과제였음.
LLM이 자연스러운 정답이 없는 문제에 적합하다는 생각이 들었음. 완벽한 카드를 선택하는 것은 계산상 불가능하지만, 좋은 카드를 선택하는 것은 가능하며 LLM이 인간 수준의 성능에 근접할 수 있음.
LLM을 미세 조정하여 해결할 수 있는 문제 집합이 존재할 것으로 보임. 일상생활에 혁명적인 변화는 아니지만, Magic: the Gathering과 같은 게임에서 흥미로운 플레이 스타일을 가진 봇과 대결하는 것을 기대함.
최고의 플레이어들의 드래프트 선택을 분석하여 "진실된 데이터"를 추출하는 방법에 대한 의문 제기. 승률로 정렬된 데이터는 최고의 플레이어가 아닌 가장 운이 좋은 플레이어를 반영할 수 있음.
LLM이 규칙 지식을 어느 정도 가질 수 있지만, 카드의 희귀성, 비용 등을 주로 고려할 가능성이 높음. 드래프트의 "정확성"에 대한 의문 제기.
LLM의 손실을 0으로 만드는 대신, Axolotl을 사용하여 가중치가 있는 손실을 사용해보는 것이 도움이 될 수 있음. 도메인 적응이 미세 조정에 도움이 될 수 있음.
에이전트에게 주어진 프롬프트가 카드의 이름만 포함하고 있으며, 이전 선택과의 맥락을 유지하지 않는 것으로 보임. 이는 봇이 좋은 드래프트를 하는 것이 순전히 우연일 수 있음을 시사함.
Magic the Gathering: Arena를 해킹하여 100% 승률을 달성한 사례에 대한 링크 공유. 이는 MTGA의 Sparky라는 가상 AI가 복잡하지 않을 수 있음을 시사함.
Magic: The Gathering을 위한 LLM 미세 조정에 대한 관심 표현. 카드 유사성 브라우저를 구축 중이며, InstructorXL을 사용하여 여러 프롬프트를 시도했지만 아직 만족스러운 결과를 얻지 못함. 이 게시물이 영감을 주었음.
각 카드를 토큰으로 취급하고 드래프트 상태를 입력으로 사용하여 선택할 카드를 예측하는 작은 모델을 사용할 수 있는지에 대한 궁금증.
Mistral을 시작점으로 사용하지 않고 신경망을 훈련하여 드래프트를 수행하는 것과 비교하는 것이 흥미로울 것임. LLM 구성 요소가 왜 중요한지 명확하지 않음.
드래프트를 LLM으로 표현할 수 있다는 것이 매우 흥미로움. 최고의 드래프트 AI는 어떤 형태로든 표현 학습을 활용함.