▲GN⁺ 2024-11-10 | parent | ★ favorite | on: HTML-to-Markdown - Golang/CLI로 전체 웹사이트를 Markdown으로 변환(github.com/JohannesKaufmann)Hacker News 의견 Jina.ai의 무료 API를 사용하면 인증이나 API 키 없이도 URL을 가져와서 마크다운 문서를 얻을 수 있음 일부 웹사이트는 처리하지 못하지만, 대부분의 경우 90%의 작업을 수행할 수 있음 Pandoc을 사용하여 HTML을 마크다운으로 변환할 수 있음 MIT 라이선스가 적용된 이 도구를 Kindle에서 읽기 위해 p2k, Instapaper 등의 대체로 사용할 수 있을지 궁금함 이러한 서비스는 렌더링이 부정확하고, 구독료를 요구함 프로젝트가 적극적으로 유지 관리된다면 다양한 기사로 테스트하고 문제를 보고할 수 있음 이 라이브러리를 Lambda 함수에서 사용하여 URL을 마크다운으로 변환하고 S3에 저장함 모든 북마크 앱에 웹훅으로 연결하여 북마크한 모든 것을 마크다운으로 저장함 Obsidian으로 가져오기 편리함 LLM에 웹 페이지 데이터를 제공하기에 유용함 Elixir 세계를 위한 유사한 도구를 만들었지만 제한적임 아이디어를 차용할 수 있음 도구에 n-gram 중복 제거 기능이 있으면 좋겠음 헤더와 푸터에서 동일한 콘텐츠를 제거하는 기능이 필요함 Urlbox를 사용하여 웹 페이지의 정확한 스크린샷과 마크다운을 얻을 수 있음 무료 도구로 이 기능을 사용할 수 있음 RedditToMarkdown과 urltomarkdown.com을 사용하여 LLM과 AI 앱을 구축하는 데 유용함 Kotlin/Spring 앱에서 사용할 유사한 라이브러리를 찾고 있음 HTML에서 마크다운으로 변환할 때 HTML 문서 문자열은 이미 정리되어 있음 이 도구를 사용할 때의 어려움 중 하나는 구문 강조 코드 블록을 처리하는 것임 html-to-markdown이 이러한 시나리오에서 어떻게 작동하는지 궁금함
Hacker News 의견
Jina.ai의 무료 API를 사용하면 인증이나 API 키 없이도 URL을 가져와서 마크다운 문서를 얻을 수 있음
MIT 라이선스가 적용된 이 도구를 Kindle에서 읽기 위해 p2k, Instapaper 등의 대체로 사용할 수 있을지 궁금함
이 라이브러리를 Lambda 함수에서 사용하여 URL을 마크다운으로 변환하고 S3에 저장함
LLM에 웹 페이지 데이터를 제공하기에 유용함
도구에 n-gram 중복 제거 기능이 있으면 좋겠음
Urlbox를 사용하여 웹 페이지의 정확한 스크린샷과 마크다운을 얻을 수 있음
RedditToMarkdown과 urltomarkdown.com을 사용하여 LLM과 AI 앱을 구축하는 데 유용함
Kotlin/Spring 앱에서 사용할 유사한 라이브러리를 찾고 있음
이 도구를 사용할 때의 어려움 중 하나는 구문 강조 코드 블록을 처리하는 것임