Show GN: ir - qmd 대안 로컬 검색 엔진 (한국어 전처리 지원)
(github.com/vlwkaos)기존 qmd를 사용하다 몇가지 문제를 발견하여 대체하기 위한 로컬용 검색엔진을 만들었습니다.
하나의 sqlite DB에 모든 collection을 한번에 indexing/embeding해야하는 불편함
-> 이를 분리하면 프로젝트 단위로 컬렉션 관리가 가능하며, 여러 agent에서 동시 작업할 때도 인덱스 갱신등이 원할합니다.
영어 기반의 기본 전처리만 지원하는 문제
-> 커맨드의 i/o 기반 preprocessor를 직접 추가할 수 있도록 지원합니다. 레포에는 여러 벤치마킹 뒤 가장 성능이 좋았던 lindera-ko를 남겨둡니다. 설치는 가이드를 확인해주세요
BM25 gap test 실패시 하이브리드 검색을 위한 모델을 cold loading 할 때 오랜 시간이 걸리는 문제
-> daemon이 돌아가며 모델을 메모리에 올려둡니다.
qmd 대비 warm 상태에서 20배 이상 빠르며,
연관성 점수에 대한 벤치마크가 없는 qmd와 달리
실제 corpus를 대상으로 약간의 score 튜닝하였습니다.
첫 공개라 문제가 발생할 수 있어 댓글로 알려주시거나 issue로 등록해주시면 감사하겠습니다.
한국어 가이드: https://github.com/vlwkaos/ir/blob/main/README.ko.md