Anthropic, Contextual Retrieval(문맥 검색) 공개

(anthropic.com)

AI 모델이 특정 컨텍스트에서 유용하려면 배경 지식에 접근할 필요가 있음
개발자들은 일반적으로 Retrieval-Augmented Generation(RAG)를 사용해 AI 모델의 지식을 향상시킴
전통적인 RAG 솔루션은 정보를 인코딩할 때 컨텍스트를 제거하여 관련 정보를 검색하지 못하는 경우가 많음
Contextual Retrieval은 RAG의 검색 단계를 크게 개선하는 방법으로, Contextual Embeddings과 Contextual BM25라는 두 가지 하위 기술을 사용함
이 방법은 검색 실패율을 49% 감소시킬 수 있으며, 재순위화와 결합하면 67%까지 감소시킬 수 있음
개발자는 Claude와 함께 자신만의 Contextual Retrieval 솔루션을 쉽게 배포할 수 있음

긴 프롬프트 사용에 대한 참고 사항

컨텍스트 윈도우에 맞지 않는 더 큰 지식 베이스의 경우 일반적인 솔루션은 RAG임
RAG는 지식 베이스를 더 작은 청크로 분해하고, 이를 벡터 임베딩으로 변환한 다음, 의미론적 유사성을 통해 검색할 수 있는 벡터 데이터베이스에 저장함
임베딩 모델은 의미 관계를 포착하는 데 뛰어나지만 중요한 정확한 일치를 놓칠 수 있음
BM25는 정확한 단어나 구문 일치를 찾기 위해 어휘 매칭을 사용하는 랭킹 함수로, 고유 식별자나 기술 용어를 포함하는 쿼리에 특히 효과적임
RAG 솔루션은 다음 단계를 사용하여 임베딩과 BM25 기술을 결합함으로써 가장 적용 가능한 청크를 더 정확하게 검색할 수 있음:
- 지식 베이스(문서의 "코퍼스")를 일반적으로 몇 백 토큰 이하의 더 작은 텍스트 청크로 분해
- 이러한 청크에 대한 TF-IDF 인코딩과 의미론적 임베딩 생성
- BM25를 사용하여 정확한 일치를 기반으로 상위 청크 찾기
- 임베딩을 사용하여 의미론적 유사성을 기반으로 상위 청크 찾기
- 순위 융합 기술을 사용하여 (3)과 (4)의 결과를 결합하고 중복 제거
- 상위 K개 청크를 프롬프트에 추가하여 응답 생성

전통적인 RAG에서는 문서를 더 작은 청크로 분할하기 때문에 개별 청크가 충분한 맥락을 결여할 수 있음
Contextual Retrieval은 각 청크 앞에 청크별 설명 컨텍스트를 추가하여 이 문제를 해결함
Claude는 전체 문서의 맥락을 사용하여 청크를 설명하는 간결한 청크별 컨텍스트를 제공하도록 지시하는 프롬프트를 사용하여 Contextual Retrieval 구현을 지원함
Contextual Retrieval은 프롬프트 캐싱 덕분에 Claude와 함께 저렴한 비용으로 이용 가능함

재순위화는 가장 관련성 높은 청크만 모델에 전달되도록 하는 일반적으로 사용되는 필터링 기술임
초기 검색을 수행하여 잠재적으로 관련성이 높은 상위 청크를 가져옴
상위 N개 청크와 사용자 쿼리를 재순위화 모델에 전달함
재순위화 모델을 사용하여 프롬프트와의 관련성과 중요성에 따라 각 청크에 점수를 부여한 다음 상위 K개 청크를 선택함
상위 K개 청크를 컨텍스트로 모델에 전달하여 최종 결과를 생성함
재순위화된 Contextual Embedding과 Contextual BM25는 상위 20개 청크 검색 실패율을 67% 감소시킴 (5.7% → 1.9%)
비용과 지연 시간 고려사항
- 재순위화는 특히 많은 수의 청크를 재순위화할 때 지연 시간과 비용에 영향을 줄 수 있음
- 더 나은 성능을 위해 더 많은 청크를 재순위화하는 것과 낮은 지연 시간과 비용을 위해 더 적은 수를 재순위화하는 것 사이에는 절충이 존재함

위에서 설명한 모든 기술의 다양한 조합(임베딩 모델, BM25 사용, 컨텍스트 검색 사용, 재순위화 사용, 검색된 상위 K 결과의 총 개수)을 비교하는 많은 테스트를 다양한 데이터셋 유형에 걸쳐 수행함
그 결과는 다음과 같음:
- 임베딩+BM25가 임베딩 자체보다 더 좋음
- 테스트한 임베딩 중 Voyage와 Gemini가 가장 좋음
- 상위 20개 청크를 모델에 전달하는 것이 상위 10개나 5개만 전달하는 것보다 더 효과적임
- 청크에 컨텍스트를 추가하면 검색 정확도가 크게 향상됨
- 재순위화가 재순위화를 하지 않는 것보다 더 좋음
- 이 모든 이점이 누적됨: 성능 향상을 극대화하기 위해 컨텍스트 BM25와 재순위화 단계를 거친 컨텍스트 임베딩(Voyage 또는 Gemini의)을 결합하고 프롬프트에 20개의 청크를 추가할 수 있음
Knowledge Base로 작업하는 모든 개발자가 제공된 쿡북을 사용하여 이러한 접근 방식을 실험해 보고 새로운 성능 수준을 달성할 것을 권장함