# 임베딩 없는 시맨틱 검색 (Semantic Search Without Embeddings)

> Clean Markdown view of GeekNews topic #25728. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25728](https://news.hada.io/topic?id=25728)
- GeekNews Markdown: [https://news.hada.io/topic/25728.md](https://news.hada.io/topic/25728.md)
- Type: news
- Author: [davespark](https://news.hada.io/@davespark)
- Published: 2026-01-11T14:43:48+09:00
- Updated: 2026-01-11T14:43:48+09:00
- Original source: [softwaredoug.com](https://softwaredoug.com/blog/2026/01/08/semantic-search-without-embeddings.html)
- Points: 19
- Comments: 1

## Summary

시맨틱 서치는 단순한 **임베딩 기반 유사도 계산**을 넘어, 표현·유사도·매칭 기준의 균형이 핵심이라고 강조합니다. 임베딩은 의미적 근접성은 잘 잡지만, 사용자가 원하지 않는 결과를 걸러내는 기준 설정에는 취약합니다. 이에 대한 대안으로 **계층적 분류 체계(Managed Taxonomy)** 를 BM25와 결합해, 검색 범위를 사람이 이해할 수 있는 구조로 조정하고 LLM으로 자동 분류를 보완하는 방식을 제안합니다.

## Topic Body

2026년에도 여전히 "시맨틱 서치 = 임베딩 + 벡터 DB" 라고 생각하나요?  
  
##### 핵심 주장  
시맨틱 서치는 단순히 **유사도(similarity)** 만 중요한 게 아니라,  
**① 표현(representation) + ② 유사도(similarity) + ③ 매칭 기준(match criteria)** 이 세 가지를 모두 잘 만족해야 진짜 좋은 검색이라고 봄.  
  
임베딩 기반 벡터 검색은 ①,②는 잘하지만 **③(정확히 사용자가 원하는 범위 내에서만 결과 포함/제외)** 에서는 매우 취약하다는 지적.  
  
핵심 예시:  
쿼리: "나무에 열리는 둥근 붉은 과일"  
좋은 임베딩 시스템 결과 (상위권에 자주 뜸):  
1. 사과  
2. 오렌지  
3. ⚾️ 야구공  
  
→ 사용자는 야구공 절대 원하지 않는데, 임베딩은 "둥글고 붉다"로 꽤 가까워서 포함시켜 버림  
임계값으로는 해결 불가능 (도메인마다, 쿼리마다 다름)  
  
대안으로 제시하는 것: **잘 관리된 계층적 분류 체계 (Managed Taxonomies)**  
  
Wayfair 가구 예시처럼  
```  
Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  
```  
  
이걸 BM25 위에 계층 토크나이저로 올리면  
- 더 구체적인(자식) 카테고리 = df 낮음 → bm25 점수 자동으로 더 높게 나옴  
- 사용자가 이해하는 언어로 정확히 범위 조절 가능 (부모/조부모 올라가며 점점 넓어짐)  
- LLM으로 분류 자동화하면 유지보수 부담도 크게 줄어듦  
  
결론:  
임베딩은 강력하지만 **필수는 아님**.  
도메인에서 이미 잘하는 카테고리/분류 역량 + LLM 보조만으로도  
임베딩보다 **훨씬 정확하고 사용자 경험이 좋은** 시맨틱 서치를 만들 수 있다는 주장.  
  
전자상거래, 의료, 법률, 도서관 등 **도메인 특화 검색** 하시는 분들께 특히 추천.

## Comments



### Comment 49072

- Author: kaydash
- Created: 2026-01-12T14:36:20+09:00
- Points: 1

하이브리드서치,멀티쿼리rag가 필요한것같아요
