매직 더 개더링 드래프트에서 미스트랄 7B의 세밀한 조정

(generallyintelligent.substack.com)

1P by GN⁺ 2023-12-08 | ★ favorite | 댓글 1개

요약: 인공지능의 미세조정 기술 탐구

미세조정 기술의 효과와 난이도
- 미세조정은 GPT-4의 기능을 보완하고 속도 및 비용 효율성을 약속함.
- 실제로 미세조정이 얼마나 효과적이고 어려운지에 대한 정보 부족을 해결하기 위해 직접 실험 진행.

문제 선택

Magic the Gathering (MTG) 드래프트를 통한 모델의 추론 능력 테스트
- MTG는 전략적 카드 게임으로, 드래프트는 무작위 카드 풀에서 카드를 선택하여 덱을 구성하는 방식.
- 드래프트는 추론과 새로운 데이터에 대한 이해가 필요한 복잡한 작업으로 적합함.
- 17lands라는 서비스에서 제공하는 대규모 역사적 데이터를 활용하여 최고의 플레이어들의 드래프트 선택을 "ground truth"로 사용.

결과 및 요약

미세조정된 7B 모델의 성능
- 미세조정된 7B 모델이 GPT-4를 능가하고 인간 수준에 근접한 성능을 보임.
- GPT-3.5를 미세조정하는 것이 더 나은 결과를 보일 수 있으나, 비용이 매우 높음.
- 미세조정은 여전히 실험적인 과정이며, 특히 프롬프트 엔지니어링이 시간이 많이 소요됨.
- 새로운 카드 세트에 대한 미세조정 후, 보이지 않는 카드 세트에서도 일반화 능력을 보임.

현장 보고: 방법과 학습 과정

데이터 구축
- 17lands의 CSV 파일 형식 데이터를 텍스트 형식으로 변환하여 미세조정에 적합하게 함.
- 데이터 포맷팅은 도전적이며 실험적인 과정임.
미세조정 실행
- GPU 접근성 문제로 Runpod에서 시간당 GPU를 대여함.
- axolotl을 사용하여 미세조정 최적화를 쉽게 구현함.
평가
- 실험 시작 전에 평가 기준을 마련하는 것이 중요함.
- 언어 모델에 대한 평가 기준 설정이 어려울 수 있음.

주요 교훈

미세조정의 효과
- 새로운 데이터에 대한 미세조정은 GPT-4보다 정확도와 비용 측면에서 뛰어남.
- 미세조정은 올바르게 수행하는 데 실험적인 과정이 필요하며, 프롬프트 엔지니어링보다 배우기 어려운 특수 기술임.

Magic 관련 추가 정보

미세조정된 AI 드래프트 봇의 성능
- Magic Arena 로그에 연결된 드래프트 모델을 사용하여 드래프트 보조 앱을 개발함.
- 미세조정된 모델이 선택을 생성하지만, GPT-4가 설명을 제공함.
- 여러 AI 드래프트 봇을 시뮬레이션하여 인간 드래프터와 유사한 성능을 보임.

GN⁺의 의견

이 글에서 가장 중요한 점은 미세조정 기술이 기존의 대형 언어 모델(GPT-4 등)의 성능을 능가할 수 있는 잠재력을 가지고 있으며, 이를 통해 특정 작업에 대한 인공지능의 이해도와 효율성을 크게 향상시킬 수 있다는 것이다. 이 글이 흥미로운 이유는 실제 적용 사례를 통해 미세조정의 구체적인 과정과 그 효과를 보여주기 때문이며, 이는 초급 소프트웨어 엔지니어들에게도 인공지능 기술의 발전 가능성과 그 적용 방법을 이해하는 데 도움이 될 것이다.

▲

GN⁺ 2023-12-08 [-]

Hacker News 의견

LLM의 미세 조정에서 단순한 개념조차 어렵게 실현될 수 있음을 보여주는 점이 인상적임. 양질의 초기 데이터셋과 모델을 가지고도 이는 도전적인 과제였음.
LLM이 자연스러운 정답이 없는 문제에 적합하다는 생각이 들었음. 완벽한 카드를 선택하는 것은 계산상 불가능하지만, 좋은 카드를 선택하는 것은 가능하며 LLM이 인간 수준의 성능에 근접할 수 있음.
LLM을 미세 조정하여 해결할 수 있는 문제 집합이 존재할 것으로 보임. 일상생활에 혁명적인 변화는 아니지만, Magic: the Gathering과 같은 게임에서 흥미로운 플레이 스타일을 가진 봇과 대결하는 것을 기대함.
최고의 플레이어들의 드래프트 선택을 분석하여 "진실된 데이터"를 추출하는 방법에 대한 의문 제기. 승률로 정렬된 데이터는 최고의 플레이어가 아닌 가장 운이 좋은 플레이어를 반영할 수 있음.
LLM이 규칙 지식을 어느 정도 가질 수 있지만, 카드의 희귀성, 비용 등을 주로 고려할 가능성이 높음. 드래프트의 "정확성"에 대한 의문 제기.
LLM의 손실을 0으로 만드는 대신, Axolotl을 사용하여 가중치가 있는 손실을 사용해보는 것이 도움이 될 수 있음. 도메인 적응이 미세 조정에 도움이 될 수 있음.
에이전트에게 주어진 프롬프트가 카드의 이름만 포함하고 있으며, 이전 선택과의 맥락을 유지하지 않는 것으로 보임. 이는 봇이 좋은 드래프트를 하는 것이 순전히 우연일 수 있음을 시사함.
Magic the Gathering: Arena를 해킹하여 100% 승률을 달성한 사례에 대한 링크 공유. 이는 MTGA의 Sparky라는 가상 AI가 복잡하지 않을 수 있음을 시사함.
Magic: The Gathering을 위한 LLM 미세 조정에 대한 관심 표현. 카드 유사성 브라우저를 구축 중이며, InstructorXL을 사용하여 여러 프롬프트를 시도했지만 아직 만족스러운 결과를 얻지 못함. 이 게시물이 영감을 주었음.
각 카드를 토큰으로 취급하고 드래프트 상태를 입력으로 사용하여 선택할 카드를 예측하는 작은 모델을 사용할 수 있는지에 대한 궁금증.
Mistral을 시작점으로 사용하지 않고 신경망을 훈련하여 드래프트를 수행하는 것과 비교하는 것이 흥미로울 것임. LLM 구성 요소가 왜 중요한지 명확하지 않음.
드래프트를 LLM으로 표현할 수 있다는 것이 매우 흥미로움. 최고의 드래프트 AI는 어떤 형태로든 표현 학습을 활용함.

답변달기