Hacker News 의견
  • 데이터 동기화의 오버헤드를 과대평가하고 있으며, 대부분의 임베딩 기반 워크플로우는 업데이트나 삭제가 많지 않음. 작은 데이터 집합에서도 일관성 문제를 인식하기 어려움. 하지만 데이터 동기화 걱정이 필요 없다는 점은 여전히 멋짐

    • Postgres 데이터베이스에 임베딩을 저장할 때 가장 큰 단점은 워크로드가 매우 다르다는 것임. HNSW 인덱스는 많은 리소스를 소모하며, 리소스 경쟁 문제를 일으킬 수 있음. 데이터베이스를 이동시키면 일관성 문제가 다시 발생함
    • 필터링과의 상호작용에 대한 질문이 있음. 부분 인덱스를 활용할 수 있는지, pgvector의 HNSW 구현의 제한 사항이 여전히 존재하는지 궁금함
  • Elastic 직원으로서, Elasticsearch가 최근에 semantic_text라는 데이터 타입을 추가했음을 언급함. 이는 텍스트를 자동으로 청크로 나누고 임베딩을 계산하여 저장함. 쿼리도 간소화되어 I/O가 줄어들고 클라이언트 코드가 간단해짐

  • PostgreSQL 도구를 소개하며, 벡터 임베딩을 데이터베이스 인덱스로 재구상함. 현재 OpenAI만 지원하지만, 곧 로컬 및 OSS 모델 지원을 계획 중임. 피드백과 반응을 기대함

  • FAISS를 단일 데이터베이스로 사용하는 것에 대한 의문을 제기함. 이는 벡터 임베딩을 위한 sqlite와 같으며, 메타데이터와 벡터를 함께 저장하여 관계를 유지할 수 있음

  • Postgres에 벡터를 사용하는 것에 대해 긍정적이며, SQL 쿼리에서 벡터 검색과 논리를 포함할 때 필터링 순서에 대한 의문을 제기함. pg_vector의 DX를 좋아하지만, 벡터 검색 후 필터링이 속도를 저하시킬 수 있음

  • 원시 임베딩을 벡터 데이터베이스에 저장하는 것은 텍스트의 원시 n-그램을 데이터베이스에 저장하는 것과 같다고 언급함. 문서를 저장하는 것이 더 합리적임

  • sqlite-vec과 FTS5를 SQLite에서 사용 중이며, 매우 유용하다고 언급함

  • PostgreSQL ORM을 Node.js에서 구축하여 벡터 필드를 포함한 코드를 작성할 수 있게 함. 이는 데이터나 임베딩 콘텐츠를 쿼리할 수 있으며, 모델의 필드를 임베딩으로 저장하는 방법을 정의할 수 있음

  • Materialized Views가 좋다고 언급함

  • 캐릭터 기반 청크를 사용하는 AI 앱은 PoC 단계를 넘지 않았다고 언급함