# Scrapeghost - GPT를 이용한 웹 스크래핑 라이브러리

> Clean Markdown view of GeekNews topic #8817. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8817](https://news.hada.io/topic?id=8817)
- GeekNews Markdown: [https://news.hada.io/topic/8817.md](https://news.hada.io/topic/8817.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-03-28T10:30:02+09:00
- Updated: 2023-03-28T10:30:02+09:00
- Original source: [jamesturk.github.io](https://jamesturk.github.io/scrapeghost/)
- Points: 20
- Comments: 0

## Topic Body

- 페이지 관련 코드를 전혀 작성하지 않고, HTML로부터 데이터를 추출하는 실험적인 라이브러리   
- 추출하고 싶은 데이터 형태만 지정한 뒤 URL을 넘기면 알아서 추출해줌   
- 내부에서 비용절감을 위해 HTML 클리닝, 분할등을 처리하고, 추출한 데이터가 진짜로 페이지에 있는 정확한 값인지 Hallucination 체크도 수행   
- GPT API 호출 비용에 대해서 예산 설정 기능 제공

## Comments



_No public comments on this page._
