# LEAF: 23M 파라미터로 OpenAI 임베딩 성능 97% 달성, CPU만으로 작동

> Clean Markdown view of GeekNews topic #24657. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24657](https://news.hada.io/topic?id=24657)
- GeekNews Markdown: [https://news.hada.io/topic/24657.md](https://news.hada.io/topic/24657.md)
- Type: news
- Author: [davespark](https://news.hada.io/@davespark)
- Published: 2025-11-27T16:19:21+09:00
- Updated: 2025-11-27T16:19:21+09:00
- Original source: [aisparkup.com](https://aisparkup.com/posts/7012)
- Points: 19
- Comments: 1

## Summary

MongoDB Research가 공개한 **LEAF**는 단 23M 파라미터로 **OpenAI 임베딩 모델의 97% 성능**을 내면서도 **CPU만으로 작동**하는 초경량 임베딩 프레임워크입니다. 교사-학생 구조에서 **최종 임베딩만 정렬하는 지식 증류 방식**을 적용해, 대형 모델로 인덱싱하고 소형 모델로 쿼리를 처리하는 효율적 RAG 파이프라인을 가능하게 합니다. GPU 비용 없이도 **초당 120쿼리 처리**가 가능해 엣지 디바이스나 스타트업 환경에서 실용성이 높으며, Apache 2.0 라이선스로 공개되어 **도메인별 파인튜닝**도 손쉽습니다. “고성능 임베딩은 곧 GPU”라는 통념을 뒤흔드는, 개발자에게 꽤 반가운 소식입니다.

## Topic Body

LEAF(Lightweight Embedding Alignment Framework)은 MongoDB Research가 개발한 임베딩 모델로 지식 증류 기법을 이용, RAG(Retrieval-Augmented Generation) 시스템의 비용과 속도 문제를 해결하는 혁신적인 솔루션. 기존 고성능 임베딩 모델은 GPU 서버가 필수지만, LEAF는 23M 파라미터 규모의 소형 모델로 OpenAI의 text-embedding-3-large 성능의 97%를 달성하면서 CPU만으로 작동할 수 있게 함.  
  
###### 배경과 문제점  
- RAG 시스템에서 문서 인덱싱은 느려도 되지만, 사용자 쿼리 응답은 수백 밀리초 내에 이뤄져야 함.   
- 고성능 모델 사용 시 GPU 비용이 부담스럽고, 저비용 모델로 전환하면 성능이 떨어지는 딜레마가 있었음.   
- LEAF는 이러한 문제를 "교사-학생 모델 호환성"으로 해결.   
- 기존 증류 방법처럼 모든 레이어를 정렬하지 않고, 최종 출력(임베딩)만 맞춤. 이를 통해 큰 교사 모델로 문서를 인덱싱하고, 작은 학생 모델로 쿼리를 CPU에서 빠르게 처리할 수 있으며, 모델 변경 시 기존 인덱스를 재사용 가능.   
- 학습 데이터 라벨링 없이 A100 GPU 한 대로 훈련할 수 있어 접근성이 높음.  
  
###### 공개된 모델과 성능  
MongoDB는 두 모델을 Apache 2.0 라이선스로 공개:  
- **mdbr-leaf-ir**: 검색/RAG 최적화 모델. BEIR 벤치마크에서 53.55점( OpenAI small 51.08점 초과, large 55.43점의 97%).  
- **mdbr-leaf-mt**: 범용 모델(분류/클러스터링). MTEB v2에서 63.97점( OpenAI small 64.56점에 근접), 30M 파라미터 이하 최고 성능.  
  
이 모델들은 CPU 2코어에서 초당 120개 쿼리 처리, 메모리 87MB만 사용해 스마트폰이나 IoT 기기에서 오프라인 작동이 가능.  
  
###### 결론과 함의  
- LEAF는 GPU 의존성을 줄여 고성능 임베딩을 민주화하며, 스타트업이나 엣지 컴퓨팅 환경에서 RAG 구현을 촉진.   
- 한계는 원본 모델 대비 3% 성능 손실이지만, 실무 대부분에서 무시할 수준.   
- 모델과 학습 레시피는 Hugging Face에서 다운로드 가능하며, 도메인 데이터로 파인튜닝이 용이.

## Comments



### Comment 46896

- Author: kaydash
- Created: 2025-11-28T08:16:42+09:00
- Points: 1

이미 bge-m3, gemma의 300m도 잘하고 작지않나요
