Hacker News 의견
  • 데이터 추출의 정확성과 효율성: RAG 시스템에서 데이터 추출 과정이 중요한 도전 과제임. 전통적인 OCR 접근법이 부족하여, 멀티모달 LLM + OCR 접근법을 사용하여 정확성과 일관성을 높임.

  • 유사한 스택 운영 경험: 2년 동안 유사한 스택을 운영해왔으며, Pgvector, HyDe, 웹 검색 + 문서 검색 등의 기술을 사용함. 로그와 분석을 포함한 좋은 대시보드가 있음.

  • 빠른 시작의 어려움: 빠른 시작이 실제로는 빠르지 않음. Docker Compose와 Postgres 이미지를 포함한 설정을 제공해야 함. 대시보드를 사용하려면 별도의 레포를 클론해야 하는 불편함이 있음.

  • 프로젝트의 복잡성: 프로젝트가 많은 요소를 포함하고 있지만 개발을 더 쉽게 만들지는 않음. SDK인지 앱 모음인지 혼란스러움. "1 클릭" 설치 경험을 제공하여 모든 기능을 미리보기 할 수 있도록 해야 함.

  • 정확성 검증: 답변의 정확성을 어떻게 검증할 수 있는지에 대한 질문. 답변이 생성된 과정을 추적할 수 있는 방법이 있는지 궁금해함.

  • 데이터 수집의 어려움: 많은 RAG 프로젝트에서 데이터 수집이 제대로 해결되지 않음. 대량의 HTML 문서를 시스템에 일괄적으로 수집하는 방법에 대한 질문.

  • 멀티모달 데이터 수집: 멀티모달 데이터 수집 과정에 대한 자세한 설명을 요청함. R2R이 현재 처리할 수 있는 데이터 유형과 비텍스트 데이터 유형의 임베딩 방법에 대한 질문.

  • 개발팀 최적화: 프로세스가 개발팀에게 어떻게 더 빠르고 최적화되었는지에 대한 설명을 요청함. MVP(최소 기능 제품) 개발 시간을 가속화할 잠재력이 큼.

  • 소스 코드와의 작업: 소스 코드를 이해할 수 있는 RAG 솔루션을 찾고 있음. 예를 들어, "제출 버튼을 클릭할 때 호출되는 분석 이벤트"를 이해할 수 있는 기능을 원함.

  • Neo4j 사용 반대: Neo4j를 사용하지 않기를 원함. 리소스 소모가 크기 때문임.

  • 인기 있는 채팅 프론트엔드와의 통합: OpenWebUI와 같은 인기 있는 채팅 프론트엔드와의 통합 여부에 대한 질문.