1P by neo 7달전 | favorite | 댓글 1개

요약: 인공지능의 미세조정 기술 탐구

  • 미세조정 기술의 효과와 난이도
    • 미세조정은 GPT-4의 기능을 보완하고 속도 및 비용 효율성을 약속함.
    • 실제로 미세조정이 얼마나 효과적이고 어려운지에 대한 정보 부족을 해결하기 위해 직접 실험 진행.

문제 선택

  • Magic the Gathering (MTG) 드래프트를 통한 모델의 추론 능력 테스트
    • MTG는 전략적 카드 게임으로, 드래프트는 무작위 카드 풀에서 카드를 선택하여 덱을 구성하는 방식.
    • 드래프트는 추론과 새로운 데이터에 대한 이해가 필요한 복잡한 작업으로 적합함.
    • 17lands라는 서비스에서 제공하는 대규모 역사적 데이터를 활용하여 최고의 플레이어들의 드래프트 선택을 "ground truth"로 사용.

결과 및 요약

  • 미세조정된 7B 모델의 성능
    • 미세조정된 7B 모델이 GPT-4를 능가하고 인간 수준에 근접한 성능을 보임.
    • GPT-3.5를 미세조정하는 것이 더 나은 결과를 보일 수 있으나, 비용이 매우 높음.
    • 미세조정은 여전히 실험적인 과정이며, 특히 프롬프트 엔지니어링이 시간이 많이 소요됨.
    • 새로운 카드 세트에 대한 미세조정 후, 보이지 않는 카드 세트에서도 일반화 능력을 보임.

현장 보고: 방법과 학습 과정

  • 데이터 구축
    • 17lands의 CSV 파일 형식 데이터를 텍스트 형식으로 변환하여 미세조정에 적합하게 함.
    • 데이터 포맷팅은 도전적이며 실험적인 과정임.
  • 미세조정 실행
    • GPU 접근성 문제로 Runpod에서 시간당 GPU를 대여함.
    • axolotl을 사용하여 미세조정 최적화를 쉽게 구현함.
  • 평가
    • 실험 시작 전에 평가 기준을 마련하는 것이 중요함.
    • 언어 모델에 대한 평가 기준 설정이 어려울 수 있음.

주요 교훈

  • 미세조정의 효과
    • 새로운 데이터에 대한 미세조정은 GPT-4보다 정확도와 비용 측면에서 뛰어남.
    • 미세조정은 올바르게 수행하는 데 실험적인 과정이 필요하며, 프롬프트 엔지니어링보다 배우기 어려운 특수 기술임.

Magic 관련 추가 정보

  • 미세조정된 AI 드래프트 봇의 성능
    • Magic Arena 로그에 연결된 드래프트 모델을 사용하여 드래프트 보조 앱을 개발함.
    • 미세조정된 모델이 선택을 생성하지만, GPT-4가 설명을 제공함.
    • 여러 AI 드래프트 봇을 시뮬레이션하여 인간 드래프터와 유사한 성능을 보임.

GN⁺의 의견

이 글에서 가장 중요한 점은 미세조정 기술이 기존의 대형 언어 모델(GPT-4 등)의 성능을 능가할 수 있는 잠재력을 가지고 있으며, 이를 통해 특정 작업에 대한 인공지능의 이해도와 효율성을 크게 향상시킬 수 있다는 것이다. 이 글이 흥미로운 이유는 실제 적용 사례를 통해 미세조정의 구체적인 과정과 그 효과를 보여주기 때문이며, 이는 초급 소프트웨어 엔지니어들에게도 인공지능 기술의 발전 가능성과 그 적용 방법을 이해하는 데 도움이 될 것이다.

Hacker News 의견
  • LLM의 미세 조정에서 단순한 개념조차 어렵게 실현될 수 있음을 보여주는 점이 인상적임. 양질의 초기 데이터셋과 모델을 가지고도 이는 도전적인 과제였음.
  • LLM이 자연스러운 정답이 없는 문제에 적합하다는 생각이 들었음. 완벽한 카드를 선택하는 것은 계산상 불가능하지만, 좋은 카드를 선택하는 것은 가능하며 LLM이 인간 수준의 성능에 근접할 수 있음.
  • LLM을 미세 조정하여 해결할 수 있는 문제 집합이 존재할 것으로 보임. 일상생활에 혁명적인 변화는 아니지만, Magic: the Gathering과 같은 게임에서 흥미로운 플레이 스타일을 가진 봇과 대결하는 것을 기대함.
  • 최고의 플레이어들의 드래프트 선택을 분석하여 "진실된 데이터"를 추출하는 방법에 대한 의문 제기. 승률로 정렬된 데이터는 최고의 플레이어가 아닌 가장 운이 좋은 플레이어를 반영할 수 있음.
  • LLM이 규칙 지식을 어느 정도 가질 수 있지만, 카드의 희귀성, 비용 등을 주로 고려할 가능성이 높음. 드래프트의 "정확성"에 대한 의문 제기.
  • LLM의 손실을 0으로 만드는 대신, Axolotl을 사용하여 가중치가 있는 손실을 사용해보는 것이 도움이 될 수 있음. 도메인 적응이 미세 조정에 도움이 될 수 있음.
  • 에이전트에게 주어진 프롬프트가 카드의 이름만 포함하고 있으며, 이전 선택과의 맥락을 유지하지 않는 것으로 보임. 이는 봇이 좋은 드래프트를 하는 것이 순전히 우연일 수 있음을 시사함.
  • Magic the Gathering: Arena를 해킹하여 100% 승률을 달성한 사례에 대한 링크 공유. 이는 MTGA의 Sparky라는 가상 AI가 복잡하지 않을 수 있음을 시사함.
  • Magic: The Gathering을 위한 LLM 미세 조정에 대한 관심 표현. 카드 유사성 브라우저를 구축 중이며, InstructorXL을 사용하여 여러 프롬프트를 시도했지만 아직 만족스러운 결과를 얻지 못함. 이 게시물이 영감을 주었음.
  • 각 카드를 토큰으로 취급하고 드래프트 상태를 입력으로 사용하여 선택할 카드를 예측하는 작은 모델을 사용할 수 있는지에 대한 궁금증.
  • Mistral을 시작점으로 사용하지 않고 신경망을 훈련하여 드래프트를 수행하는 것과 비교하는 것이 흥미로울 것임. LLM 구성 요소가 왜 중요한지 명확하지 않음.
  • 드래프트를 LLM으로 표현할 수 있다는 것이 매우 흥미로움. 최고의 드래프트 AI는 어떤 형태로든 표현 학습을 활용함.