LEAF: 23M 파라미터로 OpenAI 임베딩 성능 97% 달성, CPU만으로 작동

(aisparkup.com)

3P by davespark 5시간전 | ★ favorite | 댓글과 토론

LEAF(Lightweight Embedding Alignment Framework)은 MongoDB Research가 개발한 임베딩 모델로 지식 증류 기법을 이용, RAG(Retrieval-Augmented Generation) 시스템의 비용과 속도 문제를 해결하는 혁신적인 솔루션. 기존 고성능 임베딩 모델은 GPU 서버가 필수지만, LEAF는 23M 파라미터 규모의 소형 모델로 OpenAI의 text-embedding-3-large 성능의 97%를 달성하면서 CPU만으로 작동할 수 있게 함.

배경과 문제점

RAG 시스템에서 문서 인덱싱은 느려도 되지만, 사용자 쿼리 응답은 수백 밀리초 내에 이뤄져야 함.
고성능 모델 사용 시 GPU 비용이 부담스럽고, 저비용 모델로 전환하면 성능이 떨어지는 딜레마가 있었음.
LEAF는 이러한 문제를 "교사-학생 모델 호환성"으로 해결.
기존 증류 방법처럼 모든 레이어를 정렬하지 않고, 최종 출력(임베딩)만 맞춤. 이를 통해 큰 교사 모델로 문서를 인덱싱하고, 작은 학생 모델로 쿼리를 CPU에서 빠르게 처리할 수 있으며, 모델 변경 시 기존 인덱스를 재사용 가능.
학습 데이터 라벨링 없이 A100 GPU 한 대로 훈련할 수 있어 접근성이 높음.

공개된 모델과 성능

MongoDB는 두 모델을 Apache 2.0 라이선스로 공개:

mdbr-leaf-ir: 검색/RAG 최적화 모델. BEIR 벤치마크에서 53.55점( OpenAI small 51.08점 초과, large 55.43점의 97%).
mdbr-leaf-mt: 범용 모델(분류/클러스터링). MTEB v2에서 63.97점( OpenAI small 64.56점에 근접), 30M 파라미터 이하 최고 성능.

이 모델들은 CPU 2코어에서 초당 120개 쿼리 처리, 메모리 87MB만 사용해 스마트폰이나 IoT 기기에서 오프라인 작동이 가능.

결론과 함의

LEAF는 GPU 의존성을 줄여 고성능 임베딩을 민주화하며, 스타트업이나 엣지 컴퓨팅 환경에서 RAG 구현을 촉진.
한계는 원본 모델 대비 3% 성능 손실이지만, 실무 대부분에서 무시할 수준.
모델과 학습 레시피는 Hugging Face에서 다운로드 가능하며, 도메인 데이터로 파인튜닝이 용이.