정확히 짚어주셨습니다. 현재 BM25 레이어 tokenize()는 공백+구두점 분리 후 한글/CJK 문자를 개별 문자 단위로 추가 분해합니다. '검색하다' → ['검','색','하','다'] + '검색하다' 전체 토큰 형태입니다. 부분 매칭은 되지만 형태소 의미 단위가 뭉개지는 건 맞습니다.
Kiwi/Lindera 연동은 다음 단계 후보로 보고 있습니다. CTX는 쿼리가 trigger 라우팅 전에 언어 감지를 하고 있어서 한국어 감지 → 형태소 분석기 분기가 상대적으로 깔끔하게 들어갈 것 같습니다.
seCall에서 Lindera ko-dic + Kiwi-rs 조합으로 해결하셨다니 흥미롭네요. 혹시 CJK 혼합 텍스트(한글+영문 코드 주석) 처리는 어떻게 하셨는지 공유 부탁드려도 될까요?
정확히 짚어주셨습니다. 현재 BM25 레이어 tokenize()는 공백+구두점 분리 후 한글/CJK 문자를 개별 문자 단위로 추가 분해합니다. '검색하다' → ['검','색','하','다'] + '검색하다' 전체 토큰 형태입니다. 부분 매칭은 되지만 형태소 의미 단위가 뭉개지는 건 맞습니다.
Kiwi/Lindera 연동은 다음 단계 후보로 보고 있습니다. CTX는 쿼리가 trigger 라우팅 전에 언어 감지를 하고 있어서 한국어 감지 → 형태소 분석기 분기가 상대적으로 깔끔하게 들어갈 것 같습니다.
seCall에서 Lindera ko-dic + Kiwi-rs 조합으로 해결하셨다니 흥미롭네요. 혹시 CJK 혼합 텍스트(한글+영문 코드 주석) 처리는 어떻게 하셨는지 공유 부탁드려도 될까요?