# Show GN: ir - qmd 대안 로컬 검색 엔진 (한국어 전처리 지원)

> Clean Markdown view of GeekNews topic #27676. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27676](https://news.hada.io/topic?id=27676)
- GeekNews Markdown: [https://news.hada.io/topic/27676.md](https://news.hada.io/topic/27676.md)
- Type: show
- Author: [versionx](https://news.hada.io/@versionx)
- Published: 2026-03-20T14:08:35+09:00
- Updated: 2026-03-20T14:08:35+09:00
- Original source: [github.com/vlwkaos](https://github.com/vlwkaos/ir)
- Points: 8
- Comments: 2

## Summary

**로컬 검색엔진 ‘ir’**은 qmd의 구조적 제약을 개선해 프로젝트 단위로 컬렉션을 분리 관리할 수 있도록 설계되었습니다. 커맨드 기반 **전처리 플러그인**을 지원해 한국어 처리를 강화했으며, 데몬 프로세스를 통해 모델을 메모리에 상주시켜 하이브리드 검색의 초기 지연을 줄였습니다. qmd 대비 워밍 상태에서 20배 이상 빠른 속도를 보이며, 실제 코퍼스 기반의 점수 튜닝으로 검색 품질을 조정했습니다.

## Topic Body

기존 qmd를 사용하다 몇가지 문제를 발견하여 대체하기 위한 로컬용 검색엔진을 만들었습니다.  
  
하나의 sqlite DB에 모든 collection을 한번에 indexing/embeding해야하는 불편함  
-> 이를 분리하면 프로젝트 단위로 컬렉션 관리가 가능하며, 여러 agent에서 동시 작업할 때도 인덱스 갱신등이 원할합니다.  
  
영어 기반의 기본 전처리만 지원하는 문제  
-> 커맨드의 i/o 기반 preprocessor를 직접 추가할 수 있도록 지원합니다. 레포에는 여러 벤치마킹 뒤 가장 성능이 좋았던 lindera-ko를 남겨둡니다. 설치는 가이드를 확인해주세요  
  
BM25 gap test 실패시 하이브리드 검색을 위한 모델을 cold loading 할 때 오랜 시간이 걸리는 문제  
-> daemon이 돌아가며 모델을 메모리에 올려둡니다.   
  
qmd 대비 warm 상태에서 20배 이상 빠르며,   
연관성 점수에 대한 벤치마크가 없는 qmd와 달리   
실제 corpus를 대상으로 약간의 score 튜닝하였습니다.  
  
첫 공개라 문제가 발생할 수 있어 댓글로 알려주시거나 issue로 등록해주시면 감사하겠습니다.  
  
  
한국어 가이드: https://github.com/vlwkaos/ir/blob/main/README.ko.md

## Comments


### Comment 54697

- Author: dalinaum
- Created: 2026-04-05T20:48:42+09:00
- Points: 1

QMD의 한계 때문에 고민했는데 기대가 되는데요!

### Comment 53471

- Author: minhoryang
- Created: 2026-03-21T02:51:12+09:00
- Points: 1

오, 잘쓰겠습니다!