# Show HN: 웹페이지를 Markdown으로 정리 및 변환해주는 도구 제작

> Clean Markdown view of GeekNews topic #14323. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14323](https://news.hada.io/topic?id=14323)
- GeekNews Markdown: [https://news.hada.io/topic/14323.md](https://news.hada.io/topic/14323.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-04-15T10:11:17+09:00
- Updated: 2024-04-15T10:11:17+09:00
- Original source: [markdowndown.vercel.app](https://markdowndown.vercel.app/)
- Points: 3
- Comments: 1

## Topic Body

_No topic body._

## Comments



### Comment 24429

- Author: neo
- Created: 2024-04-15T10:11:17+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40033490) 
요약하면 아래와 같음:

- 웹 페이지를 마크다운으로 변환하는 도구를 개발하면서 부하 관리, 무료 서비스 지속 가능성 등에 대한 고민이 있음
- 웹 페이지 마크다운 변환 시 중요한 문제는 다음과 같음:
  1. 페이지 콘텐츠의 철저한 스크래핑 (높은 재현율)
  2. 광고/보조 콘텐츠 제거 (높은 정밀도)
  3. 올바른 레이아웃/섹션 유형 추출 (포맷팅)
- 기존 오픈소스 도구들(`Trafilatura`, `Newspaper4k`, `python-readability` 등)이 일정 수준 이상의 성능을 보여줌. 차별화 포인트나 개선점이 궁금함
- 쿠키 메시지가 뜨는 사이트의 경우, 실제 콘텐츠 대신 쿠키 관련 내용만 파싱되는 이슈가 있음 (예: `cnbc.com`)
- GPT를 활용한 이미지 다운로드, 필터링 등의 아이디어가 좋음
- 유사한 도구들 소개:
  - `url2text.com`: JS로 렌더링된 HTML, 메타데이터, 스크린샷 등을 함께 추출 가능
  - `firecrawl.dev`: 단일 페이지 뿐만 아니라 사이트 전체 크롤링 기능 제공
  - `substack-ai.vercel.app`: Substack 뉴스레터 콘텐츠 추출에 특화
  - `content-parser.com`: 마크다운, HTML, 텍스트, PDF 등 다양한 형식 지원
- `pandoc`과 같은 범용 문서 변환 도구로도 유사한 기능 구현 가능
- 대부분의 도구가 Mozilla의 `readability` 프로젝트를 활용해 개발됨
