Scrapeghost - GPT를 이용한 웹 스크래핑 라이브러리
(jamesturk.github.io)- 페이지 관련 코드를 전혀 작성하지 않고, HTML로부터 데이터를 추출하는 실험적인 라이브러리
- 추출하고 싶은 데이터 형태만 지정한 뒤 URL을 넘기면 알아서 추출해줌
- 내부에서 비용절감을 위해 HTML 클리닝, 분할등을 처리하고, 추출한 데이터가 진짜로 페이지에 있는 정확한 값인지 Hallucination 체크도 수행
- GPT API 호출 비용에 대해서 예산 설정 기능 제공