Hacker News 의견

요약하면 아래와 같음:

  • 웹 페이지를 마크다운으로 변환하는 도구를 개발하면서 부하 관리, 무료 서비스 지속 가능성 등에 대한 고민이 있음
  • 웹 페이지 마크다운 변환 시 중요한 문제는 다음과 같음:
    1. 페이지 콘텐츠의 철저한 스크래핑 (높은 재현율)
    2. 광고/보조 콘텐츠 제거 (높은 정밀도)
    3. 올바른 레이아웃/섹션 유형 추출 (포맷팅)
  • 기존 오픈소스 도구들(Trafilatura, Newspaper4k, python-readability 등)이 일정 수준 이상의 성능을 보여줌. 차별화 포인트나 개선점이 궁금함
  • 쿠키 메시지가 뜨는 사이트의 경우, 실제 콘텐츠 대신 쿠키 관련 내용만 파싱되는 이슈가 있음 (예: cnbc.com)
  • GPT를 활용한 이미지 다운로드, 필터링 등의 아이디어가 좋음
  • 유사한 도구들 소개:
    • url2text.com: JS로 렌더링된 HTML, 메타데이터, 스크린샷 등을 함께 추출 가능
    • firecrawl.dev: 단일 페이지 뿐만 아니라 사이트 전체 크롤링 기능 제공
    • substack-ai.vercel.app: Substack 뉴스레터 콘텐츠 추출에 특화
    • content-parser.com: 마크다운, HTML, 텍스트, PDF 등 다양한 형식 지원
  • pandoc과 같은 범용 문서 변환 도구로도 유사한 기능 구현 가능
  • 대부분의 도구가 Mozilla의 readability 프로젝트를 활용해 개발됨