GN⁺: Show HN: 웹페이지를 Markdown으로 정리 및 변환해주는 도구 제작
(markdowndown.vercel.app)Hacker News 의견
요약하면 아래와 같음:
- 웹 페이지를 마크다운으로 변환하는 도구를 개발하면서 부하 관리, 무료 서비스 지속 가능성 등에 대한 고민이 있음
- 웹 페이지 마크다운 변환 시 중요한 문제는 다음과 같음:
- 페이지 콘텐츠의 철저한 스크래핑 (높은 재현율)
- 광고/보조 콘텐츠 제거 (높은 정밀도)
- 올바른 레이아웃/섹션 유형 추출 (포맷팅)
- 기존 오픈소스 도구들(
Trafilatura
,Newspaper4k
,python-readability
등)이 일정 수준 이상의 성능을 보여줌. 차별화 포인트나 개선점이 궁금함 - 쿠키 메시지가 뜨는 사이트의 경우, 실제 콘텐츠 대신 쿠키 관련 내용만 파싱되는 이슈가 있음 (예:
cnbc.com
) - GPT를 활용한 이미지 다운로드, 필터링 등의 아이디어가 좋음
- 유사한 도구들 소개:
-
url2text.com
: JS로 렌더링된 HTML, 메타데이터, 스크린샷 등을 함께 추출 가능 -
firecrawl.dev
: 단일 페이지 뿐만 아니라 사이트 전체 크롤링 기능 제공 -
substack-ai.vercel.app
: Substack 뉴스레터 콘텐츠 추출에 특화 -
content-parser.com
: 마크다운, HTML, 텍스트, PDF 등 다양한 형식 지원
-
-
pandoc
과 같은 범용 문서 변환 도구로도 유사한 기능 구현 가능 - 대부분의 도구가 Mozilla의
readability
프로젝트를 활용해 개발됨