LlamaGym - 온라인 강화 학습을 통한 LLM 에이전트의 파인 튜닝

(github.com/KhoomeiK)

9P by xguru 2024-03-22 | ★ favorite | 댓글과 토론

LLM기반 에이전트를 강화학습(RL)을 통해 미세조정하는 것을 단순화함
현재 LlamaGym은 Gym 환경에서 에이전트 프롬프팅 및 하이퍼파라미터를 빠르게 반복하고 실험할 수 있게 해주는 단일 Agent 추상 클래스를 제공
사용자는 Agent 클래스에 3개의 추상 메소드를 구현하여 자신만의 LLM 기반 에이전트를 정의할 수 있음

사용법

LlamaGym 설치 후, Agent 클래스에 3개의 추상 메소드를 구현하여 블랙잭 플레이어 에이전트를 만듦.
기본 LLM을 정의하고 에이전트를 인스턴스화한 다음, RL 루프를 작성하여 에이전트가 행동하고, 보상을 받으며, 에피소드를 종료하게 함.
강화학습을 통한 온라인 학습은 어려운 부분이 있으므로 하이퍼파라미터 조정이 필요하며, 감독된 미세조정 단계가 도움이 될 수 있음.