defuddle - 어떤 웹페이지든 Markdown으로 추출합니다
(github.com/kepano)- 웹페이지의 불필요한 댓글, 사이드바, 헤더, 푸터를 제거하고 핵심 본문만 정제해 HTML/마크다운으로 추출하는 콘텐츠 파서
- 유튜브 영상은 대화를 화자별로 분리해서 추출해줌(0.12.0부터)
- Obsidian Web Clipper용으로 개발되었으나, 브라우저·Node.js 등 다양한 환경에서 사용 가능
-
Mozilla Readability 대체용으로 설계되어 더 유연한 처리와 일관된 출력 제공
- 불확실한 요소 제거를 최소화
- 각주, 수식, 코드 블록 등 표준화된 출력 지원
- 모바일 스타일 분석을 통한 불필요 요소 감지
- schema.org 메타데이터를 포함 더 많은 메타데이터 자동 추출
- CLI 인터페이스를 지원해 터미널에서 직접 HTML·URL 파싱 가능
- MIT 라이선스
Defuddle - Readability를 대체하는 HTML-to-Markdown 오픈소스
10달 전에도 한번 올라왔었는데요, 이번에 유튜브 영상의 대화를 화자 분리해서 뽑아내는 기능이 추가되었습니다.
그리고 그동안 X URL의 비동기 추출이나 아티클 추출, substack 앱 지원, CLI 추가, GitHub URL 지원등 많은 기능이 추가되었네요.