▲GN⁺ 2024-04-15 | parent | ★ favorite | on: Show HN: 웹페이지를 Markdown으로 정리 및 변환해주는 도구 제작(markdowndown.vercel.app)Hacker News 의견 요약하면 아래와 같음: 웹 페이지를 마크다운으로 변환하는 도구를 개발하면서 부하 관리, 무료 서비스 지속 가능성 등에 대한 고민이 있음 웹 페이지 마크다운 변환 시 중요한 문제는 다음과 같음: 페이지 콘텐츠의 철저한 스크래핑 (높은 재현율) 광고/보조 콘텐츠 제거 (높은 정밀도) 올바른 레이아웃/섹션 유형 추출 (포맷팅) 기존 오픈소스 도구들(Trafilatura, Newspaper4k, python-readability 등)이 일정 수준 이상의 성능을 보여줌. 차별화 포인트나 개선점이 궁금함 쿠키 메시지가 뜨는 사이트의 경우, 실제 콘텐츠 대신 쿠키 관련 내용만 파싱되는 이슈가 있음 (예: cnbc.com) GPT를 활용한 이미지 다운로드, 필터링 등의 아이디어가 좋음 유사한 도구들 소개: url2text.com: JS로 렌더링된 HTML, 메타데이터, 스크린샷 등을 함께 추출 가능 firecrawl.dev: 단일 페이지 뿐만 아니라 사이트 전체 크롤링 기능 제공 substack-ai.vercel.app: Substack 뉴스레터 콘텐츠 추출에 특화 content-parser.com: 마크다운, HTML, 텍스트, PDF 등 다양한 형식 지원 pandoc과 같은 범용 문서 변환 도구로도 유사한 기능 구현 가능 대부분의 도구가 Mozilla의 readability 프로젝트를 활용해 개발됨
Hacker News 의견
요약하면 아래와 같음:
Trafilatura,Newspaper4k,python-readability등)이 일정 수준 이상의 성능을 보여줌. 차별화 포인트나 개선점이 궁금함cnbc.com)url2text.com: JS로 렌더링된 HTML, 메타데이터, 스크린샷 등을 함께 추출 가능firecrawl.dev: 단일 페이지 뿐만 아니라 사이트 전체 크롤링 기능 제공substack-ai.vercel.app: Substack 뉴스레터 콘텐츠 추출에 특화content-parser.com: 마크다운, HTML, 텍스트, PDF 등 다양한 형식 지원pandoc과 같은 범용 문서 변환 도구로도 유사한 기능 구현 가능readability프로젝트를 활용해 개발됨