Scrapegraph-ai - LLM과 직접 그래프 로직을 이용한 웹 스크래핑
(github.com/VinciGit00)- AI기반의 웹 스크래핑 파이썬 오픈소스 라이브러리
- LLM과 직접 그래프 로직을 사용해 웹사이트, 문서, XML 파일에 대한 스크래핑 파이프라인을 생성
- 어떤 정보를 추출하고 싶은지 지정하면 라이브러리가 알아서 작동
- Ollama, OpenAI, Groq, Azure, Gemini 등 다양한 모델 이용 가능
- 제공되는 노드들
- 베이스 노드, HTML페치 노드, Image_to_text 노드, Text_To-Speech 노드, 인터넷 검색 노드
- 컨디셔널 노드 : 그래프의 다음 노드를 결정
- 답변생성 노드 : LLM이용해 질문의 답 생성
- generate_scraper 노드 : 사용자 입력에 따라 콘텐츠에서 원하는 정보 추출
- Get_probable_tags 노드 : 콘텐츠에서 원하는 정보를 가진 HTML 태그 찾기
- Parse 노드 : HTML 문서에서 정보 추출
- Rag 노드 : 대용량 문서에서 관련 정보 추출
- Robots 노드 : 로봇 접근 가능한지 확인