Show GN: LLM-free 웹 크롤링 : web-content-extractor
(github.com/wrtnlabs)최근 AI의 발전으로 데이터 수집의 중요도가 늘었는데요, 그런 만큼 자동화된 웹 크롤링의 수요도 덩달아 증가하는 추세입니다.
그러나 HTML에서 중요한 본문을 획득하는 것은 생각보다 어려운 일입니다. LLM을 사용하면 낫겠으나, 시간과 비용 모두 부담이 됩니다.
web-content-extractor는 이 문제를 해결해 줍니다. HTML에서 본문을 자동으로 분석하고, 링크를 수집해 코드 레벨에서 자동화할 수 있습니다.
이 라이브러리는 DOM Based Content Extraction via Text Density 논문을 구현하고, 약간의 휴리스틱을 적용한 구현체입니다. 실전에서 충분히 사용할 수 있을 만큼의 성능을 보장합니다.
많은 사용 후 이슈 부탁드립니다.
스타는 개발에 많은 도움이 됩니다.