# Scrapegraph-ai - LLM과 직접 그래프 로직을 이용한 웹 스크래핑

> Clean Markdown view of GeekNews topic #14737. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14737](https://news.hada.io/topic?id=14737)
- GeekNews Markdown: [https://news.hada.io/topic/14737.md](https://news.hada.io/topic/14737.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-05-10T09:51:01+09:00
- Updated: 2024-05-10T09:51:01+09:00
- Original source: [github.com/VinciGit00](https://github.com/VinciGit00/Scrapegraph-ai)
- Points: 20
- Comments: 1

## Topic Body

- AI기반의 웹 스크래핑 파이썬 오픈소스 라이브러리   
  - LLM과 직접 그래프 로직을 사용해 웹사이트, 문서, XML 파일에 대한 스크래핑 파이프라인을 생성  
- 어떤 정보를 추출하고 싶은지 지정하면 라이브러리가 알아서 작동   
- Ollama, OpenAI, Groq, Azure, Gemini 등 다양한 모델 이용 가능   
- 제공되는 노드들   
  - 베이스 노드, HTML페치 노드, Image_to_text 노드, Text_To-Speech 노드, 인터넷 검색 노드   
  - 컨디셔널 노드 : 그래프의 다음 노드를 결정  
  - 답변생성 노드 : LLM이용해 질문의 답 생성   
  - generate_scraper 노드 : 사용자 입력에 따라 콘텐츠에서 원하는 정보 추출  
  - Get_probable_tags 노드 : 콘텐츠에서 원하는 정보를 가진 HTML 태그 찾기   
  - Parse 노드 : HTML 문서에서 정보 추출   
  - Rag 노드 : 대용량 문서에서 관련 정보 추출   
  - Robots 노드 : 로봇 접근 가능한지 확인

## Comments



### Comment 25175

- Author: ng0301
- Created: 2024-05-13T09:37:23+09:00
- Points: 1

CSR 웹앱에 대해서는 잘 못긁어오는듯한 느낌을 받아 아쉬웠습니다.  
대신 SSR에 대해서는 상당히 만족스러웠습니다.
