9P by neo 5일전 | favorite | 댓글 1개
  • HTML을 깨끗하고 읽기 쉬운 Markdown으로 변환하는 강력한 도구
  • 복잡한 포맷을 지원하고, 사용자 정의 옵션과 플러그인을 통해 변환 과정을 완벽하게 제어할 수 있음
  • Golang 라이브러리 또는 CLI 명령어를 사용하거나, 온라인 데모나 REST API를 통해 직접 확인 가능

주요 기능

  • Bold & Italic: 단어 내에서도 굵게 및 기울임을 지원함
  • List: 순서 있는 목록과 순서 없는 목록을 완벽하게 중첩하여 지원함
  • Blockquote: 인용문 내에 다른 요소를 포함할 수 있으며, 중첩된 인용문도 매끄럽게 지원함
  • Inline Code & Code Block: 백틱과 여러 줄의 코드 블록을 올바르게 처리하여 코드 구조를 유지함
  • Link & Image: 여러 줄의 링크를 올바르게 포맷하고, 빈 줄에 대한 이스케이프를 추가함
  • Smart Escaping: 특별한 문자를 필요할 때만 이스케이프하여 의도치 않은 Markdown 렌더링을 방지함
  • Remove/Keep HTML: 특정 HTML 태그를 제거하거나 유지할 수 있는 선택권을 제공함
  • Plugin: 플러그인을 쉽게 확장하거나, 기능을 향상시키기 위해 사용자 정의 플러그인을 만들 수 있음
    • 사용자 정의 로직이 필요할 경우, 코드를 작성하고 등록할 수 있음
    • 기본 설정이 마음에 들지 않으면 PriorityEarly를 사용하여 로직을 다른 것보다 먼저 실행할 수 있음
  • Converter는 여러 고루틴에서 사용할 수 있으며, 내부적으로 뮤텍스를 사용함
Hacker News 의견
  • Jina.ai의 무료 API를 사용하면 인증이나 API 키 없이도 URL을 가져와서 마크다운 문서를 얻을 수 있음

    • 일부 웹사이트는 처리하지 못하지만, 대부분의 경우 90%의 작업을 수행할 수 있음
    • Pandoc을 사용하여 HTML을 마크다운으로 변환할 수 있음
  • MIT 라이선스가 적용된 이 도구를 Kindle에서 읽기 위해 p2k, Instapaper 등의 대체로 사용할 수 있을지 궁금함

    • 이러한 서비스는 렌더링이 부정확하고, 구독료를 요구함
    • 프로젝트가 적극적으로 유지 관리된다면 다양한 기사로 테스트하고 문제를 보고할 수 있음
  • 이 라이브러리를 Lambda 함수에서 사용하여 URL을 마크다운으로 변환하고 S3에 저장함

    • 모든 북마크 앱에 웹훅으로 연결하여 북마크한 모든 것을 마크다운으로 저장함
    • Obsidian으로 가져오기 편리함
  • LLM에 웹 페이지 데이터를 제공하기에 유용함

    • Elixir 세계를 위한 유사한 도구를 만들었지만 제한적임
    • 아이디어를 차용할 수 있음
  • 도구에 n-gram 중복 제거 기능이 있으면 좋겠음

    • 헤더와 푸터에서 동일한 콘텐츠를 제거하는 기능이 필요함
  • Urlbox를 사용하여 웹 페이지의 정확한 스크린샷과 마크다운을 얻을 수 있음

    • 무료 도구로 이 기능을 사용할 수 있음
  • RedditToMarkdown과 urltomarkdown.com을 사용하여 LLM과 AI 앱을 구축하는 데 유용함

  • Kotlin/Spring 앱에서 사용할 유사한 라이브러리를 찾고 있음

    • HTML에서 마크다운으로 변환할 때 HTML 문서 문자열은 이미 정리되어 있음
  • 이 도구를 사용할 때의 어려움 중 하나는 구문 강조 코드 블록을 처리하는 것임

    • html-to-markdown이 이러한 시나리오에서 어떻게 작동하는지 궁금함