14P by xguru 1시간전 | ★ favorite | 댓글 3개
  • 웹페이지의 불필요한 댓글, 사이드바, 헤더, 푸터를 제거하고 핵심 본문만 정제해 HTML/마크다운으로 추출하는 콘텐츠 파서
  • 유튜브 영상은 대화를 화자별로 분리해서 추출해줌(0.12.0부터)
  • Obsidian Web Clipper용으로 개발되었으나, 브라우저·Node.js 등 다양한 환경에서 사용 가능
  • Mozilla Readability 대체용으로 설계되어 더 유연한 처리와 일관된 출력 제공
    • 불확실한 요소 제거를 최소화
    • 각주, 수식, 코드 블록 등 표준화된 출력 지원
    • 모바일 스타일 분석을 통한 불필요 요소 감지
    • schema.org 메타데이터를 포함 더 많은 메타데이터 자동 추출
  • CLI 인터페이스를 지원해 터미널에서 직접 HTML·URL 파싱 가능
  • MIT 라이선스

Defuddle - Readability를 대체하는 HTML-to-Markdown 오픈소스
10달 전에도 한번 올라왔었는데요, 이번에 유튜브 영상의 대화를 화자 분리해서 뽑아내는 기능이 추가되었습니다.
그리고 그동안 X URL의 비동기 추출이나 아티클 추출, substack 앱 지원, CLI 추가, GitHub URL 지원등 많은 기능이 추가되었네요.

마크다운이 애매하게 추출되네요. 웹 페이지에 있는 딱 SEO가 잘 적용된 기준에서만 잘 추출되는 것 같은데요. 맞나요?

클로드 코드랑 결합해서 쓸때 정말 좋더라고요.