Microsoft Agent Lightning: 코드 수정 없이 AI 에이전트 강화학습 훈련 프레임워크
(aisparkup.com)Microsoft Research가 공개한 Agent Lightning은 기존 AI 에이전트 코드를 거의 변경하지 않고 강화학습(RL)으로 훈련할 수 있는 혁신적인 프레임워크입니다. LangChain, AutoGen 등 다양한 에이전트 프레임워크와 호환되며, SQL 에이전트 테스트에서 정확도를 73.2%에서 80.4%로 끌어올리는 등 실증된 성과를 보였습니다.
주요 특징
- Training-Agent Disaggregation 아키텍처: 에이전트 실행과 RL 훈련을 완전히 분리. Sidecar 디자인으로 비침투적 데이터 수집(프롬프트, 도구 호출, 보상 신호)을 실현해 제로 코드 변경 가능.
- 프레임워크 독립성: OpenAI 호환 API를 통해 LangChain, OpenAI Agent SDK, CrewAI 등 어떤 에이전트든 즉시 연동.
- GRPO 알고리즘: PPO의 변형으로 그룹 내 상대적 성능 비교를 통해 메모리 효율적으로 학습. LightningRL은 복잡한 멀티턴 상호작용을 transition으로 분해해 credit assignment 처리.
실전 적용 예: SQL 에이전트
LangGraph 기반 SQL 에이전트(자연어 질문을 SQL 쿼리로 변환, 실행, 오류 수정 루프)를 대상으로 훈련:
- 훈련 과정: 서버 실행 후 클라이언트 연결만으로 시작. 예: Qwen2.5-Coder-3B 모델 사용.
- 성과: Spider 데이터셋에서 정확도 73.2% → 80.4%, 평균 transition 수 3.30 → 2.60으로 효율성 ↑. 7B 모델은 84.4% 달성.
설치 및 사용
-
pip install agentlightning(추가: [apo] 또는 [verl] 옵션). - GitHub examples에 Text-to-SQL, RAG 등 사례 제공. 멀티에이전트 시스템에서도 선택적 최적화 가능.
- 지원 알고리즘: GRPO/PPO, Supervised Fine-tuning, APO(프롬프트 최적화).
미래 전망
오픈소스 프로젝트로 커뮤니티 활성화(DeepWerewolf 등). 향후 풍부한 보상 메커니즘, Off-policy RL, 커리큘럼 학습 등 확장 예정. 에이전트 개발과 최적화를 분리해 적응형 에이전트 시대를 열 전망입니다.