임베딩과 정보 검색 전 과정 — 임베딩 개념과 한계, 데이터셋 생성·라벨링, 각종 오프 더 셸프 모델 평가, 하이브리드·리랭킹, 임베딩 모델 파인튜닝 및 최적화, 해석 가능성까지 –을 주욱 살펴보는 글입니다.

다루는 주제들

  • 임베딩과 그 일반화 가능성(Generalizability)에 대한 논의
  • 인간과 + LLM을 활용한 데이터셋 구축 및 라벨링
  • 17가지 검색 모델 평가
  • 긴 컨텍스트 임베딩 모델을 사용할 때, ‘청크(chunk)를 나눌 것인가 말 것인가’에 대한 결정
  • 하이브리드 검색 및 리-랭킹(Re-ranking)
  • 상용 SaaS 검색 서비스 평가
  • 임베딩 모델 파인튜닝
  • 임베딩 모델 및 벡터 검색 최적화
  • 해석 가능한(Interpretable) 신경망 검색 구현