9P by xguru 1일전 | favorite | 댓글 2개
  • 웹사이트를 크롤링해서 LLM에서 사용가능한 마크다운 또는 구조화 데이터로 변환
  • API로 URL을 전송하면, 모든 하위 페이지를 크롤링하여 각 하위 페이지에 대한 깨끗한 데이터를 제공
  • Python, Node, Go, Rust SDK 제공
  • LangChain, Llama Index,Dify, Langflow, Zapier 등에 연동지원

하위 크롤링을 지원하지는 않지만, 유사한 목적의 문서 포맷 변환기를 소개해봅니다.
https://github.com/DS4SD/docling

원하는대로 잘 되진 않네요