현재 긱뉴스는 구글 검색을 임베딩하여 사용하는데,
개인적으로 불편함을 좀 느끼고 있습니다.
최근 본 뉴스의 대략적인 키워드를 기억하여 이를 검색하면
최신순으로 정렬하는 방법이 없어 찾기 어렵기도 합니다.
벡터스토어를 wasm으로 넣어서 구현한걸 보기도 했지만
검색 엔진은 제 분야가 아니라 그런지 구상하기 어렵네요.
프론트엔드 단에서 fuzzy search 등을 구현하면 아무래도 서버 부담이 커질 듯 한데,
가십거리용이지만, 효과적으로 이를 구현할 방법이 있을까요?
저 검색 좋아하는 검색충인데, 검색 량이 하루에 얼마정도 나오나요 ?
만약에 적다면 기존 검색 방법 러프하게 유지하면서 rerank 모델 쓰는 것으로 자연어 검색을 써볼 수 있긴 해요.
전번에 제가 만든 서비스의 대략적인 검색 구조입니다.
대충 1차적으로 es 로 쿼리 날린 다음에 cohere rerank api 적용해서, 자연어 기준으로 rerank score가 가장 잘 맞는 본문을 기준으로 서빙해 주는데요.
그런데 생각해보니까 구글을 임베딩 하셨다는게, 검색 결과 항목 내부의 html 본문을 가져올 방법이 딱히 없을 것 같네요. 그래도 일단 링크는 남깁니다
제 경우엔 최신 결과가 먼저 나오지 않는 부분이 다소 불편하게 느껴집니다. 옛날 bbs 게시판처럼 단순하게 LIKE 쿼리로 검색하는 쪽이 제 니즈에 좀 더 부합할 듯 합니다. 속도 때문에 range를 좀 고려해야겠지만요..
임베딩된 구글 검색의 결과가 json으로 출력되는 것 같은데 그걸 가져와서 정렬하시죠
https://cse.google.com/cse/element/v1 리퀘스트 확인해 보세요