흥미로운 접근 잘 봤습니다. trigger 분류로 라우팅하는 발상은 아주 좋은 아이디어같습니다.
한 가지 궁금한 점: BM25 레이어의 토크나이저가 README에 명시 안 된 것 같은데 한국어 처리는 어떻게 가시나요? 기본 공백 토크나이저면 "검색하다"/"검색하는"이 별도 토큰이 되어서 한국어 주석·docstring 검색에서 recall이 많이 떨어질 텐데요.
multilingual-e5-small fallback이 있긴 하지만 BM25 레이어 자체의 한국어(cjk포함)처리 계획이 궁금합니다. (저도 seCall이라고 llm wiki앱을 만들면서 CJK 검색에 문제가 있어 Lindera ko-dic + Kiwi-rs 붙여 해결했는데, CTX는 trigger 라우팅
구조라 다른 접근 가능할 것 같아서요.)
흥미로운 접근 잘 봤습니다. trigger 분류로 라우팅하는 발상은 아주 좋은 아이디어같습니다.
한 가지 궁금한 점: BM25 레이어의 토크나이저가 README에 명시 안 된 것 같은데 한국어 처리는 어떻게 가시나요? 기본 공백 토크나이저면 "검색하다"/"검색하는"이 별도 토큰이 되어서 한국어 주석·docstring 검색에서 recall이 많이 떨어질 텐데요.
multilingual-e5-small fallback이 있긴 하지만 BM25 레이어 자체의 한국어(cjk포함)처리 계획이 궁금합니다. (저도 seCall이라고 llm wiki앱을 만들면서 CJK 검색에 문제가 있어 Lindera ko-dic + Kiwi-rs 붙여 해결했는데, CTX는 trigger 라우팅
구조라 다른 접근 가능할 것 같아서요.)