Meta Superintelligence, 놀라운 첫 논문 ‘REFRAG’으로 RAG 효율 30배 향상

(paddedinputs.substack.com)

8P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Meta Superintelligence(MSI) 의 첫 연구 결과인 REFRAG은 기존 RAG(Retrieval-Augmented Generation) 구조를 대폭 개선해 30배 빠른 응답 속도를 달성한 새로운 접근법
핵심은 문서 조각을 토큰이 아닌 LLM이 직접 이해할 수 있는 ‘Chunk Embedding’ 형태로 변환하고, 필요 시 일부만 복원하는 정책 네트워크를 도입한 것임
이를 통해 KV 캐시와 어텐션 비용을 대폭 절감하며, 첫 토큰 응답 지연(TTFT) 을 줄여 UX를 향상시키는 동시에 운영비 절감 효과를 얻음
논문은 모델 구조 혁신이 아닌 시스템·응용 계층에서의 효율성에 초점을 맞춰, 즉각적인 ROI를 실현 가능한 기술 방향성을 제시함
이는 대형 모델의 성능 한계와 비용 문제를 우회하며, 향후 AI 제품의 경제성을 재정의할 잠재력을 보여줌

MSI의 첫 논문 공개 배경

Meta Superintelligence(MSI) 연구소는 업계 최고의 인재와 파격적인 연봉으로 큰 주목을 받음
MSI가 첫 논문으로 실용적인 RAG(retrieval-augmented generation) 주제를 선택한 점이 매우 이례적
업계는 MSI가 기초 모델의 성능 향상이나 새로운 아키텍처 개발에 집중할 것이라 예상했으나, 실용적이고 경제적 효과가 즉각적인 주제를 선택한 점이 의외였음
RAG는 AI 에이전트, 검색, 고객지원, 요약 등 상용 서비스의 핵심 구성 요소로, 응답 지연과 비용이 비즈니스 모델에 직접적인 영향을 미침
이 논문은 RAG 기반 AI 제품의 비용과 지연시간을 대량으로 줄여, 즉시 ROI(투자수익)를 창출할 수 있는 방법을 제시함
- 실제 현장의 문제를 30배 더 빠른 응답속도라는 성과로 혁신
- 논문 : REFRAG: Rethinking RAG based Decoding

REFRAG의 기술 구조

1. 기존 RAG 방식은 벡터 DB에서 관련 문서(청크)를 검색하고, LLM이 모든 청크를 전체 토큰 형태로 받아 처리함
2. REFRAG에서는 문서를 청크로 분할(약 128 토큰) 한 후, 각각을 경량 인코더가 임베딩(embedding) 단일 벡터로 변환하여 LLM의 임베딩 공간에 투사함
- 이 임베딩은 미리 계산해 캐싱할 수 있음
3. 사용자가 질의하면, 관련 청크를 검색 - 대부분의 청크는 임베딩 형태로 LLM에 전달하고,
- RL 기반 정책 네트워크(policy) 가 선택한 극히 일부 청크만 전체 토큰 시퀀스로 확장해 보냄
4. 이 정책 네트워크는 RL(강화학습) 목표로 최적화되어, 확장해야 하는 청크를 제한된 예산 내에서 선택
- 생성 품질을 유지하면서 perplexity를 줄이는 보상 함수로 학습됨
5. LLM은 입력받은 토큰 시퀀스(질의+확장된 청크)와 여러 개의 단일 벡터 자리표시자(압축된 청크)를 합쳐 텍스트 생성을 수행함

결과적으로 LLM은 “질의 + 복원된 일부 토큰 + 여러 임베딩 벡터”를 받아 짧은 입력으로 동일한 출력을 생성할 수 있음
이 구조로 인해 캐시 사용량, 어텐션 연산량, 초기 응답 시간이 모두 크게 감소함

기술적 의미와 핵심 통찰

논문상의 핵심은, 정책 네트워크가 RAG 프로세스 내 덜 중요한 청크를 효과적으로 압축하고, 중요 부분만 풀어쓴다는 정책임
더 중요한 숨은 인사이트는 “임베딩이 이미 LLM 내부 계층에서 생성된다면, 다시 자연어로 풀어쓸 필요 없이 바로 임베딩을 전달할 수 있다”는 점
즉, LLM이 이미 이해 가능한 표현 공간에서 직접 데이터를 처리함으로써 중복 압축 과정을 제거하고, 정확도 손실 없이 속도만 극적으로 증가시킴
이는 “토큰을 최적화할 것이 아니라, 토큰의 개념 자체를 바꾼다”는 관점으로 요약 가능함

현재 AI 밸류체인상의 의의

LLM 분야의 두가지 혁신 벡터 비교
- 모델 레벨 혁신: 새로운 아키텍처, 더 큰 모델, 새로운 사전 훈련
  - 고위험, 고수익, 긴 타임라인, 큰 자본 필요
- 애플리케이션/시스템 레벨 효율성: 추론 최적화, 검색 기법, 오케스트레이션
  - 낮은 위험, 즉각적인 ROI, 직접 수익화 가능
REFRAG은 후자의 방향으로, GPU당 처리량 증가·운영비 절감·UX 개선이라는 명확한 ROI를 제공함
기업 및 제품팀은 REFRAG 방식의 실제 도입을 통해 GPU 한 대 당 처리량(Throughput) 증가, 인프라 비용 감소, UX 강화 효과를 바로 테스트할 수 있음
이 방식은 리트리버·리랭커와 독립적으로 조합할 수 있어, 기존 RAG 파이프라인에 유연하게 적용 가능
특히 벡터DB 시장의 경쟁 심화 속에서, Pinecone의 매각설과 같은 산업 변동과 맞물려 RAG 효율성 개선은 시의적절한 연구 주제임

예상되는 한계점

훈련 및 엔지니어링 복잡성
- 인코더 + 프로젝션을 추가하고 LLM이 임베딩을 이해하도록 훈련 필요(재구성 사전 훈련 + SFT)
- 선택적 정책은 RL 문제로 안정적이지만 개발 복잡성 추가
압축 한계
- 공격적인 압축은 결국 다운스트림 품질 저하
- 임베딩 크기와 확장 빈도 간 트레이드오프 존재
신선도 문제
- 사전 계산된 청크 임베딩은 정적 코퍼스에 적합
- 자주 변경되는 데이터의 경우 임베딩 재계산 파이프라인 필요하거나 하이브리드 전략 의존
사용 사례별 고려사항
- 요약은 대략적이며, 특정 정밀도가 중요한 작업(법률 추론, 정확한 인용, 민감한 의료 사실)은 신중한 평가 필요
- 이런 경우 낮은 압축 예산 필요 가능

결론 및 시사점

논문의 핵심 질문: "토큰 비용을 최적화하려 하지 말고, 완전히 다른 종류의 토큰을 사용하면 어떨까?"
REFRAG은 “LLM이 읽는 토큰의 개념을 재정의” 함으로써, RAG의 구조적 한계를 완화하고 AI 제품의 단가 구조를 바꾸는 실용적 혁신을 제시함
향후 확장 가능성
- LLM이 READ 측면에서 임베딩 네이티브가 될 수 있다면, WRITE 측면에서도 임베딩 네이티브가 되어 에이전트를 전체적으로 30배 가속화 가능할까?
- 임베딩 모델의 토큰당 비용은 거의 제로 - 다른 아키텍처로 이동해 토큰 가격을 대폭 절감한 것인가? 단점은?
REFRAG는 모든 혁신이 더 큰 모델에서 나오는 것은 아니라는 점을 상기시킴
- 대규모에서 RAG를 더 저렴하고 빠르게 만드는 것은 제품 경제성에 직접적인 레버
- 업계는 이러한 승리를 운영화하는 팀에 보상할 것

▲

GN⁺ 2달전 [-]

Hacker News 의견

이 논문은 슈퍼인텔리전스와 관련 없으며, 조직 개편 전에 연구하던 팀이 이름 변경 이후에 논문을 발표한 것임을 설명함. 많은 사람이 Meta가 더 이상 논문을 발표하지 않고, OpenAI처럼 될 거라 예상했으나, Meta는 여전히 논문 발표와 오픈소스 모델 공개를 빠르게 진행 중임
- Meta가 공개하는 것은 오픈소스가 아니라, 오픈된 가중치 모델임을 강조함. 심지어 이 가중치들도 Apache 2보다 엄격한 라이선스로 공개되고 있음
- MSL(해당 팀)은 몇몇 유명 인사만으로 이루어진 게 아님을 강조함
RAG(Retrieval-Augmented Generation) 관련 논의에서 다양한 의미로 사용되는 상황에 대해 혼란을 느끼는 중임. 나에게 RAG란, 미리 정의된 문서 저장소에서 각 문서 조각을 벡터 임베딩으로 만들고, 필요에 따라 특정 조각만 문맥에 포함시키는 시스템임. 또는 LLM 채팅 인터페이스에서 키워드로 웹 검색해서 문맥에 관련 문서만 임시로 넣는 기능임. 긴 컨텍스트 윈도우가 지원되면 어떻게 될지 궁금함. 모든 정보를 한 번에 문맥에 넣으면 다양성 저하가 걱정되고, 이럴 경우 일관성엔 도움이 될지 모르지만 결국 어떤 정보를 남기고 버릴지 결정하는 방식은 여전히 RAG가 아닐까 생각함. 전문가의 설명을 듣고 싶음
- 기술적으로 RAG는 외부 검색으로 생성을 보조하는 모든 기법임. 하지만 일반적으로는 벡터 DB를 사용하는 방식 의미로 좁게 쓰임. 대용량 컨텍스트 윈도우에 모든 정보를 다 넣는 것은 비실용적임. 처리에 시간이 더 걸리고, 정보가 너무 많으면 모델이 필요한 정보를 제대로 찾기 어려워짐. 결과적으로 저지연이 필요하거나 메모리 제한이 있을 때는 ‘고전적’ RAG 방식이 여전히 유용함
- 핵심은 적응성임. RAG와 비-RAG의 주요 차이는 인덱스 생성 시점에 질문을 아는지, 그리고 가져온 문서 간 상호 비교 및 질문 세분화 기능 유무임. Non-RAG(비-RAG)는 멀티레이어 비인과적 트랜스포머 등으로 질문-문서를 동시에 봄으로써 더 일반적이고 딥러닝 최적화가 쉬움. 반면 RAG는 빠르고 저렴하지만 외부 도구를 쓰기 때문에 end-to-end 학습이 어려움(RL 같은 보상학습이 필요). RAG는 문서가 독립적이고 인덱싱 시점에 질문을 알지 못함. 하이브리드 형태로 RAG 출력물을 Non-RAG에 넣어 결합하는 방식도 있음. Non-RAG는 대규모 데이터셋이 필요하지만, 웹 전체를 학습시키면 성능이 계속 개선됨. Specific case 성능 개선이 오히려 쉬움. RAG는 입력 제어와 구조적 데이터에 강점이 있고, 최악의 케이스 방지에 용이하나, best case 개선은 어려움
- 컨텍스트에 무한히 많은 정보를 넣을 순 없다고 생각함. 내 경험상 GPT-5는 몇 페이지 지나면 금방 혼란스러워함. 그렇게 많은 양을 넣어도 기억하지 못함
- 실제로 “RAG가 죽었다”라고 말하는 사람은 없다고 생각함. 인터넷 전체를 LLM 컨텍스트에 넣는 것은 불가능하고, 넣을수록 비용만 높아짐
Meta에는 최고 실력자들이 있었지만, 잠재력을 충분히 활용하지 못했던 것 같음. 내가 보기엔 성과 지표만 너무 집착하지 않고 연구자들에게 자율성을 준다면 AI 경쟁에서 더 앞설 수 있을 거라고 생각함. 새로 합류한 팀에는 체계화에 능한 사람, 그리고 돈에 더 관심 있는 사람들이 주축이 된 느낌임. 사실 어느 빅테크 연구소나 이런 경향이 분명 존재함. 이 조직들은 너무 리스크를 회피하려 함. 예전엔 연구자들에게 자유를 줬기 때문에 실리콘밸리의 오늘이 있었다고 봄. 나를 포함해, ML 연구자 수백 명이 자율성과 자원을 준다면 훨씬 적은 연봉에도 기꺼이 일하고 싶음. Meta도 지금 투자하고 있는 돈을 좀 더 다양하게 사용하여, 실리콘밸리를 성장시킨 원칙을 다시 돌아볼 필요가 있음
- 내 생각으론, 경쟁자가 많아질수록 ‘진짜 실력자’보다 시스템을 잘 공략하는 사람이 최상위권에 남는 현상이 생기는 듯함. GAFAM 입사 지원이나 Tinder 사례만 봐도 그런 경향이 보임
- 기업 랩이 연구자에게 자유를 준다고 해서 실제로 사업에 도움이 되지 않는 것 같음. Bell Labs나 Microsoft Research 같은 사례를 봐도, 대단한 연구는 많이 했으나 기업의 핵심 사업과 연결된 건 극히 드뭄. AI 연구가 Meta에 실질적으로 수익이나 경쟁력을 주는 게 아닌, 집단 지식 성장만 이끈다는 논점임. 기업 입장에서는 이런 방식이 잘 맞지 않음. 오히려 연구자가 된다면 지금 학계도 학생 관리나 회의로 바쁨
- AI 발전 속도가 느려졌다는 말에 의문이 있음. 무엇으로 평가하는지 반문함. 실제로 분야를 팔로업하는 사람이라면 동의하기 어려운 주장임
- Meta의 압박에서도, 엄청난 연봉을 받는 수학자들이 과연 자유롭게 사고할 시간이 있을지 항상 궁금했음
- Alex Wang의 선택이 흥미로웠음. 훌륭한 AI 연구소 CEO가 많은데 Wang은 대단한 점도 있으나, 사실상 MTurk과 시장 타이밍이 전부였음. AGI를 이끌 CEO로는 어울리지 않음
새 연구소의 첫 논문 주제가 실질적이고 현실적인 RAG였다는 점이 의외임. 대개 새 랩이라면 초기에는 각자 하던 주제로 논문 몇 편 발표하다가, 팀워크와 시너지가 충분히 쌓이면 본격적으로 혁신적인 연구가 나온다고 생각함. 중요한 ‘첫 논문’에 너무 의미부여를 하면, 오히려 출발부터 부담이 커질 수 있음
- 나 역시 학계에서는 첫 논문에 특별한 의미를 두지 않음. 대부분의 첫 논문은 대학원생이 지도교수의 기존 프로젝트에 기여한 결과물임. 실제로는 논문 대부분이 교수의 손에서 나옴. 연구실(랩) 수준이라고 해도 ‘첫 논문’이 특별한 가치를 갖는다는 이야기는 들어본 적 없음
Meta의 슈퍼인텔리전스 팀에서 나온 논문이 해당 팀에서 직접 기획된 것인지, 아니면 기존에 일하던 인력이 팀 이동 후 발표한 논문인지 궁금함. 전자일 가능성이 높다고 추측함
- 또 다른 의견에 따르면 후자(조직 개편에 따라 발표한 논문)임을 알려줌 참고
RAG 논문에 관한 유튜브 해설 영상을 정리해서 공유함 영상 링크
논문 내 그래프, 표에서 TF-IDF나 단순 단어 중복 등 기존의 쉽고 통계적인 컨텍스트 압축 기법과의 비교가 즉시 보이지 않았음. 산업 현장에서는 성능은 거의 동일하면서 10배 정보량 감소를 제공하는 이런 간단한 방법이 매우 중요함
비슷한 아이디어를 생각하고 구현해본 경험이 있음. 앞으로는 LLM이 다양한 임베딩 포맷을 더 손쉽게 처리할 수 있도록, 이를 단순화하는 프레임워크가 필요함
RAG 관련 open-source 프로젝트 링크를 소개함 REFRAG
기사 제목이 너무 자극적이니, 좀 더 정보성 있고 클릭을 유도하지 않는 제목을 원함
- 기사의 대표적 언어를 활용해 더 정보성 있고 덜 자극적인 제목이 무엇일지 궁금함

답변달기