19P by xguru 7일전 | ★ favorite | 댓글 2개
  • 이미지, PDF, 영상 등 멀티모달 데이터를 통합 검색 및 관리할 수 있게 해주는 오픈소스 도구
    • 기존 RAG 방식보다 기술적이고 시각적인 문서 처리에 최적화
  • ColPali 임베딩을 활용해 페이지 전체를 이미지처럼 처리, 레이아웃·타이포그래피·시각 맥락까지 이해하는 시맨틱 검색 기능을 제공
  • 복수 문서간 개체 연결이 가능한 도메인 특화 지식 그래프를 만들 수 있으며, 커스텀 또는 사전 학습된 시스템 프롬프트를 활용 가능
  • PDF, 이미지, 영상 등 다양한 문서를 단일 API로 검색 하며, MCP도 지원
  • 메타데이터 추출 기능이 빠르고 확장 가능하며, 바운딩 박스, 분류 등도 지원
  • Google Suite, Slack, Confluence 등과의 워크플로우 통합 가능
  • 문서 기반 생성 속도를 향상시키는 KV 캐시 기반 생성(Cache-Augmented-Generation) 기능도 포함
  • 기본 기능은 MIT 라이선스로 오픈소스 제공되어 무료로 시작 가능, 일부 고급 기능은 유료 및 ee 네임스페이스로 제공됨

주요 개념 과 기능 소개

  • 멀티모달 검색 (ColPali)

    • 각 PDF 페이지를 이미지로 처리, 하나의 텍스트 토큰 단위가 아닌 페이지 단위 멀티벡터 표현 생성
    • 이미지, PDF, 동영상 및 시각적 구조(표, 도식, 서식 등)도 의미를 파악하고 검색 가능
    • 단일 엔드포인트를 통한 통합 멀티모달 질의 지원
  • 지식 그래프 (Knowledge Graphs)

    • 한 줄의 코드로 도메인 특화 지식 그래프 생성 가능
    • 사전 구성된 프롬프트 사용 가능하거나, 사용자 정의 가능
  • 빠르고 확장가능한 메타데이터 추출 (Rules Processing)

    • 문서 내의 bounding box, 라벨, 분류 정보 등 자동 추출
    • 대용량 문서도 빠르고 안정적으로 처리
  • 다양한 통합 기능 (Integrations)

    • Google Workspace, Slack, Confluence 등과의 직접 통합 지원
  • 캐시 기반 생성 (Cache-Augmented-Generation)

    • 문서별로 KV 캐시를 생성해 생성 속도 향상
    • 반복 질의가 많은 환경에서 유용

이걸 몇달전에 쓴다고 테스트 해봤었는데 생각보다 gpu 자원이 많이 필요로 하고 속도도 많이 떨어져서 소규모 회사에서 도입하기엔 힘들더라구요. a10 gpu 2개로도 검색하는데 30초에서 1분가량 걸려서 ㄷㄷ,,