LEAF: 23M 파라미터로 OpenAI 임베딩 성능 97% 달성, CPU만으로 작동
(aisparkup.com)LEAF(Lightweight Embedding Alignment Framework)은 MongoDB Research가 개발한 임베딩 모델로 지식 증류 기법을 이용, RAG(Retrieval-Augmented Generation) 시스템의 비용과 속도 문제를 해결하는 혁신적인 솔루션. 기존 고성능 임베딩 모델은 GPU 서버가 필수지만, LEAF는 23M 파라미터 규모의 소형 모델로 OpenAI의 text-embedding-3-large 성능의 97%를 달성하면서 CPU만으로 작동할 수 있게 함.
배경과 문제점
- RAG 시스템에서 문서 인덱싱은 느려도 되지만, 사용자 쿼리 응답은 수백 밀리초 내에 이뤄져야 함.
- 고성능 모델 사용 시 GPU 비용이 부담스럽고, 저비용 모델로 전환하면 성능이 떨어지는 딜레마가 있었음.
- LEAF는 이러한 문제를 "교사-학생 모델 호환성"으로 해결.
- 기존 증류 방법처럼 모든 레이어를 정렬하지 않고, 최종 출력(임베딩)만 맞춤. 이를 통해 큰 교사 모델로 문서를 인덱싱하고, 작은 학생 모델로 쿼리를 CPU에서 빠르게 처리할 수 있으며, 모델 변경 시 기존 인덱스를 재사용 가능.
- 학습 데이터 라벨링 없이 A100 GPU 한 대로 훈련할 수 있어 접근성이 높음.
공개된 모델과 성능
MongoDB는 두 모델을 Apache 2.0 라이선스로 공개:
- mdbr-leaf-ir: 검색/RAG 최적화 모델. BEIR 벤치마크에서 53.55점( OpenAI small 51.08점 초과, large 55.43점의 97%).
- mdbr-leaf-mt: 범용 모델(분류/클러스터링). MTEB v2에서 63.97점( OpenAI small 64.56점에 근접), 30M 파라미터 이하 최고 성능.
이 모델들은 CPU 2코어에서 초당 120개 쿼리 처리, 메모리 87MB만 사용해 스마트폰이나 IoT 기기에서 오프라인 작동이 가능.
결론과 함의
- LEAF는 GPU 의존성을 줄여 고성능 임베딩을 민주화하며, 스타트업이나 엣지 컴퓨팅 환경에서 RAG 구현을 촉진.
- 한계는 원본 모델 대비 3% 성능 손실이지만, 실무 대부분에서 무시할 수준.
- 모델과 학습 레시피는 Hugging Face에서 다운로드 가능하며, 도메인 데이터로 파인튜닝이 용이.