12P by xguru 2021-07-21 | favorite | 댓글 1개

- Rust + Tantivy 기반 (Rust로 구현된 Apache Lucene과 비슷한 오픈소스, 한글 토크나이저 지원)
- 빅 데이터셋을 인덱싱 하기 좋게 설계
ㅤ→ Compute 와 Storage 를 분리 : S3 같은 저장소를 검색 가능
ㅤ→ 손쉬운 서치 클러스터 관리 : 몇초 만에 인스턴스 추가/삭제 가능
- 지원 기능
ㅤ→ 인덱스와 클러스터 관리를 위한 간단한 CLI
ㅤ→ 로컬/리모트 인덱스
ㅤ→ Stateless 인스턴스
ㅤ→ Byte Range 쿼리를 지원하는 아무 객체 스토리지에나 사용 가능
ㅤ→ Full Text 검색(Phrase Query 포함)
ㅤ→ 타임 파티셔닝 지원 내장
ㅤ→ Boolean 쿼리 지원
ㅤ→ Text, i64, f64, date, bytes, composite types object, array 데이터 타입 지원

어떻게 비용 효율 적인 걸 구현했는 지는 블로그에 적은 소개글에 나와 있습니다.
- Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
- Tantivy https://github.com/tantivy-search/tantivy

예전에 " Bayard - Rust 로 구현된 풀텍스트 검색 & 인덱싱 서버 https://news.hada.io/topic?id=841 " 소개할때는 Tantivy에 한글 토크나이저가 없었는데 추가되었네요.

https://github.com/lindera-morphology/lindera-ko-dic-builder
한글 토크나이저