# 오프라인에서 수백만 페이지를 통한 'Wikipedia' 진동 검색

> Clean Markdown view of GeekNews topic #10685. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=10685](https://news.hada.io/topic?id=10685)
- GeekNews Markdown: [https://news.hada.io/topic/10685.md](https://news.hada.io/topic/10685.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-09-03T10:09:24+09:00
- Updated: 2023-09-03T10:09:24+09:00
- Original source: [leebutterman.com](https://www.leebutterman.com/2023/06/01/offline-realtime-embedding-search.html)
- Points: 1
- Comments: 1

## Topic Body

- 새로운 브라우저 기반 위키백과 검색 엔진에 대한 기사, 오프라인 검색 가능
- 검색 엔진의 실시간 위키백과 페이지 백만 개 검색 기능, 모바일 기기에서 10ms마다 결과 반환
- 검색 엔진 데이터베이스의 작은 크기, 특별한 처리 없이 백만 개의 임베딩을 지원하는 캐주얼 사용 사례
- 문장 변환기를 이용한 문서 임베딩, 제품 양자화를 통한 임베딩 압축, 그리고 브라우저에서 거리 계산을 실행하는 pq.js 사용하는 검색 엔진
- 검색 엔진에서 쿼리를 위한 브라우저 내 문장 변환기 실행을 위해 transformers.js 사용
- 압축된 페이지 크기에 따라 임베딩을 정렬하는 검색 엔진, 정보 밀도가 높은 페이지가 먼저 분석되고 상위 10개 순위에 반환
- 고성능을 위해 JSON 대신 Arrow를 사용하는 검색 엔진, Arrow는 8비트 정수 제품 양자화 배열을 간결하게 저장 가능
- 웹어셈블리에서 실행되는 ONNX 모델을 사용하는 검색 엔진, 아직 GPU 가속화 없음
- 문장 변환기로 위키백과 전체를 임베딩하고, 제품 양자화로 임베딩을 압축하며, ONNX를 수동으로 작성하는 검색 엔진
- 임베딩과 메타데이터를 저장하기 위해 numpy를 Arrow로 내보내는 검색 엔진, 메모리와 디스크에서 훨씬 간결
- 제품 하위 카테고리에서 실시간 검색을 허용하는 다면 검색을 지원하는 검색 엔진
- 저자는 피드백 및 개선 제안을 초대, 특히 다른 양자화 수준과 다른 임베딩 차원 지원에 대해

## Comments



### Comment 18895

- Author: neo
- Created: 2023-09-03T10:09:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=37355487) 
- 위키백과를 오프라인에서 검색할 수 있는 새로운 도구에 대한 기사
- 일부 사용자들은 이 도구가 ChatGPT와 같은 AI 서비스보다 정확도가 떨어진다고 보고
- 텍스트 임베딩을 사용하여 검색 쿼리를 매칭하는 도구
- "추상적인 설명에 기반한 텍스트 검색"이라는 제목의 최근 논문이 더욱 추상적인 검색 쿼리를 가능하게 함
- 일부 사용자들은 이 도구가 Google보다 기대한 결과를 반환하는 데 덜 효과적이라고 발견
- 한 사용자는 위키백과 기사의 전체 문서가 아닌 정의하는 문장이나 단락만 임베딩하면 도구가 개선될 수 있을 것이라고 제안
- 도구의 오프라인 기능과 구현에 대한 칭찬, 정확도에 대한 일부 비판에도 불구하고
- 일부 사용자들은 도구와 관련된 기술적 문제, 예를 들어 느린 로딩 시간을 겪고 있음
- SemanticFinder라는 비슷한 프로젝트 언급, 사용자가 텍스트의 어떤 길이든 복사하고 붙여넣을 수 있게 하고 가장 유사한 세그먼트를 반환
- 한 사용자는 도구의 효과가 위키백과의 주제 표현의 품질에 제한될 수 있다고 지적
- 일부 사용자들은 도구의 결과에 실망, 그러나 그것 뒤에 있는 인상적인 기술을 인정
- 한 사용자는 전체 기사를 임베딩하는 도구의 접근 방식이 이러한 종류의 응용 프로그램에 최선이 아닐 수 있다고 제안
