Firecrawl - 웹사이트 전체를 LLM에서 사용가능하게 만드는 도구
(github.com/mendableai)- 웹사이트를 크롤링해서 LLM에서 사용가능한 마크다운 또는 구조화 데이터로 변환
- API로 URL을 전송하면, 모든 하위 페이지를 크롤링하여 각 하위 페이지에 대한 깨끗한 데이터를 제공
- Python, Node, Go, Rust SDK 제공
- LangChain, Llama Index,Dify, Langflow, Zapier 등에 연동지원
하위 크롤링을 지원하지는 않지만, 유사한 목적의 문서 포맷 변환기를 소개해봅니다.
https://github.com/DS4SD/docling