Hacker News 의견
  • Jina.ai의 무료 API를 사용하면 인증이나 API 키 없이도 URL을 가져와서 마크다운 문서를 얻을 수 있음

    • 일부 웹사이트는 처리하지 못하지만, 대부분의 경우 90%의 작업을 수행할 수 있음
    • Pandoc을 사용하여 HTML을 마크다운으로 변환할 수 있음
  • MIT 라이선스가 적용된 이 도구를 Kindle에서 읽기 위해 p2k, Instapaper 등의 대체로 사용할 수 있을지 궁금함

    • 이러한 서비스는 렌더링이 부정확하고, 구독료를 요구함
    • 프로젝트가 적극적으로 유지 관리된다면 다양한 기사로 테스트하고 문제를 보고할 수 있음
  • 이 라이브러리를 Lambda 함수에서 사용하여 URL을 마크다운으로 변환하고 S3에 저장함

    • 모든 북마크 앱에 웹훅으로 연결하여 북마크한 모든 것을 마크다운으로 저장함
    • Obsidian으로 가져오기 편리함
  • LLM에 웹 페이지 데이터를 제공하기에 유용함

    • Elixir 세계를 위한 유사한 도구를 만들었지만 제한적임
    • 아이디어를 차용할 수 있음
  • 도구에 n-gram 중복 제거 기능이 있으면 좋겠음

    • 헤더와 푸터에서 동일한 콘텐츠를 제거하는 기능이 필요함
  • Urlbox를 사용하여 웹 페이지의 정확한 스크린샷과 마크다운을 얻을 수 있음

    • 무료 도구로 이 기능을 사용할 수 있음
  • RedditToMarkdown과 urltomarkdown.com을 사용하여 LLM과 AI 앱을 구축하는 데 유용함

  • Kotlin/Spring 앱에서 사용할 유사한 라이브러리를 찾고 있음

    • HTML에서 마크다운으로 변환할 때 HTML 문서 문자열은 이미 정리되어 있음
  • 이 도구를 사용할 때의 어려움 중 하나는 구문 강조 코드 블록을 처리하는 것임

    • html-to-markdown이 이러한 시나리오에서 어떻게 작동하는지 궁금함