벡터 데이터베이스는 잘못된 추상화임

▲

GN⁺ 2024-10-30 | parent | ★ favorite | on: 벡터 데이터베이스는 잘못된 추상화임(timescale.com)

Hacker News 의견

데이터 동기화의 오버헤드를 과대평가하고 있으며, 대부분의 임베딩 기반 워크플로우는 업데이트나 삭제가 많지 않음. 작은 데이터 집합에서도 일관성 문제를 인식하기 어려움. 하지만 데이터 동기화 걱정이 필요 없다는 점은 여전히 멋짐
- Postgres 데이터베이스에 임베딩을 저장할 때 가장 큰 단점은 워크로드가 매우 다르다는 것임. HNSW 인덱스는 많은 리소스를 소모하며, 리소스 경쟁 문제를 일으킬 수 있음. 데이터베이스를 이동시키면 일관성 문제가 다시 발생함
- 필터링과의 상호작용에 대한 질문이 있음. 부분 인덱스를 활용할 수 있는지, pgvector의 HNSW 구현의 제한 사항이 여전히 존재하는지 궁금함
Elastic 직원으로서, Elasticsearch가 최근에 semantic_text라는 데이터 타입을 추가했음을 언급함. 이는 텍스트를 자동으로 청크로 나누고 임베딩을 계산하여 저장함. 쿼리도 간소화되어 I/O가 줄어들고 클라이언트 코드가 간단해짐
PostgreSQL 도구를 소개하며, 벡터 임베딩을 데이터베이스 인덱스로 재구상함. 현재 OpenAI만 지원하지만, 곧 로컬 및 OSS 모델 지원을 계획 중임. 피드백과 반응을 기대함
FAISS를 단일 데이터베이스로 사용하는 것에 대한 의문을 제기함. 이는 벡터 임베딩을 위한 sqlite와 같으며, 메타데이터와 벡터를 함께 저장하여 관계를 유지할 수 있음
Postgres에 벡터를 사용하는 것에 대해 긍정적이며, SQL 쿼리에서 벡터 검색과 논리를 포함할 때 필터링 순서에 대한 의문을 제기함. pg_vector의 DX를 좋아하지만, 벡터 검색 후 필터링이 속도를 저하시킬 수 있음
원시 임베딩을 벡터 데이터베이스에 저장하는 것은 텍스트의 원시 n-그램을 데이터베이스에 저장하는 것과 같다고 언급함. 문서를 저장하는 것이 더 합리적임
sqlite-vec과 FTS5를 SQLite에서 사용 중이며, 매우 유용하다고 언급함
PostgreSQL ORM을 Node.js에서 구축하여 벡터 필드를 포함한 코드를 작성할 수 있게 함. 이는 데이터나 임베딩 콘텐츠를 쿼리할 수 있으며, 모델의 필드를 임베딩으로 저장하는 방법을 정의할 수 있음
Materialized Views가 좋다고 언급함
캐릭터 기반 청크를 사용하는 AI 앱은 PoC 단계를 넘지 않았다고 언급함