▲GN⁺ 2024-11-19 | parent | ★ favorite | on: HN 공개: FastGraphRAG – 전통적인 PageRank를 활용한 개선된 RAG 기술(github.com/circlemind-ai)Hacker News 의견 BM25와 LLM을 함께 사용하면 매우 관련성 높은 결과를 얻을 수 있음 쿼리 크기가 임베딩 저장소의 크기와 비슷할 때 임베딩이 잘 작동함 LLM을 사용하여 가상의 답변을 생성하고 이를 임베딩 쿼리에 사용하면 효과적임 지식 분해 및 추출 단계에서 메타프롬프터를 사용하여 도메인/엔티티 유형을 자동 생성함 LLM은 지식을 적절한 수준으로 분해하는 데 서투름 mermaid.js 마인드맵을 사용하여 입력을 계층적으로 나누고 적절한 루트를 찾음 생성된 질문을 텍스트로 인덱싱하고 임베딩함 BM25를 사용하여 사용자 쿼리를 직접 매칭할 수 있으며, 하이브리드 접근이 더 나은 결과를 제공함 쿼리 시간에 LLM을 사용하지 않으면 임베딩 유사성을 비용 함수로 사용하여 계층적으로 탐색 가능함 PageRank와 Triangle Centrality는 그래프에 적용할 수 있는 흥미로운 중심성 지표임 Triangle Centrality는 노드 주변의 삼각형을 세어 중심성을 파악함 연구 결과, TC는 희소 그래프에서 PR보다 느리지만, 그래프가 커질수록 더 효율적임 전통적인 정보 검색이 RAG에 적합하다고 생각함 벡터 검색은 비구조화 데이터에 유용하지만 구조화 데이터에는 덜 효과적임 벡터 검색을 위해 구조화 데이터를 비구조화 데이터로 변환하는 것은 비효율적일 수 있음 LLM이 쿼리를 학습하거나 기존 검색/쿼리 API와 인터페이스하도록 하는 것이 유용할 수 있음 큰 컨텍스트 크기를 사용하여 여러 쿼리로 많은 결과를 가져오는 것이 벡터 검색보다 빠르고 저렴함 AI 스타트업에서 대규모 문서 분석을 위해 GraphRag 시스템을 사용하고자 함 매달 약 10%의 문서 변경이 예상됨 S3를 사용하여 데이터를 수집할 수 있지만 비용과 처리 시간을 이해해야 함 PageRank가 OpenAI API 키를 요구하는 것에 대한 의문 OpenAI의 출력물을 사용하여 경쟁 모델을 개발할 수 없다는 제한이 있음 자연 인간의 경제적 하락에 대한 우려 그래프 데이터베이스 없이 그래프를 저장하고 쿼리하는 방법에 대한 질문 sciphi triplex 모델을 사용한 추출 시도에서 일관성 없는 결과를 경험함 도메인 특정 텍스트의 지식 그래프 구축에 필요한 텍스트 양에 대한 질문 Aider는 코드 저장소의 호출 그래프에 PageRank를 적용하여 관련 컨텍스트를 찾음 도메인 및 예제 쿼리가 지식 그래프 구축에 어떻게 도움이 되는지에 대한 질문 가격 정책에 대한 혼란 GitHub 페이지에서는 처음 100개의 요청이 무료라고 하지만, 랜딩 페이지에서는 무료로 사용하려면 자체 호스팅을 권장함 "Scrooge가 누구인가?"라는 질문에 대한 답변이 다른 접근 방식보다 나은지에 대한 질문 비용 절감 또는 더 나은 답변을 얻기 위한 접근인지에 대한 의문
Hacker News 의견
BM25와 LLM을 함께 사용하면 매우 관련성 높은 결과를 얻을 수 있음
PageRank와 Triangle Centrality는 그래프에 적용할 수 있는 흥미로운 중심성 지표임
전통적인 정보 검색이 RAG에 적합하다고 생각함
AI 스타트업에서 대규모 문서 분석을 위해 GraphRag 시스템을 사용하고자 함
PageRank가 OpenAI API 키를 요구하는 것에 대한 의문
그래프 데이터베이스 없이 그래프를 저장하고 쿼리하는 방법에 대한 질문
도메인 특정 텍스트의 지식 그래프 구축에 필요한 텍스트 양에 대한 질문
도메인 및 예제 쿼리가 지식 그래프 구축에 어떻게 도움이 되는지에 대한 질문
가격 정책에 대한 혼란
"Scrooge가 누구인가?"라는 질문에 대한 답변이 다른 접근 방식보다 나은지에 대한 질문