# Marker - PDF를 마크다운으로 변환하는 오픈소스

> Clean Markdown view of GeekNews topic #12150. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12150](https://news.hada.io/topic?id=12150)
- GeekNews Markdown: [https://news.hada.io/topic/12150.md](https://news.hada.io/topic/12150.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-12-04T10:04:01+09:00
- Updated: 2023-12-04T10:04:01+09:00
- Original source: [github.com/VikParuchuri](https://github.com/VikParuchuri/marker)
- Points: 37
- Comments: 6

## Topic Body

- PDF, EPUB, MOBI 를 마크다운으로 변환   
- 페이스북 리서치가 만든 Nougat 보다 10배 이상 빠르고 더 정확하게 변환   
- 책과 논문 형식에 최적화됨   
- 헤더, 푸터 및 다른 아티팩트는 제거   
- 대부분의 수식은 LaTeX로 변환   
- 코드블록 및 테이블은 포맷팅   
- 다국어 지원

## Comments



### Comment 21103

- Author: bus710
- Created: 2023-12-05T02:08:59+09:00
- Points: 1

이런….   
영어권 출판사들에게 시련이 닥치는군요.  
몇볓 테크 위주 출판사들은 도서 구매 시 pdf 파일을 그냥 주는 곳도 더러 있는데, 어떻게 풀어나갈지 궁금하네요.

### Comment 21074

- Author: hero512
- Created: 2023-12-04T10:28:26+09:00
- Points: 1

PDF는 OCR이 되어있어야 하는걸까요?? 당장 써봐야겟네요

### Comment 21075

- Author: limc132
- Created: 2023-12-04T10:31:56+09:00
- Points: 1
- Parent comment: 21074
- Depth: 1

readme만 봤을때는 OCR 작업도 수행해주는걸로 보이네요...제가 잘못읽었을수도...

### Comment 21076

- Author: hero512
- Created: 2023-12-04T10:33:35+09:00
- Points: 1
- Parent comment: 21075
- Depth: 2

네.. 영알못에겐 좀 어려운 표현을 사용했네요  
Extract text, OCR if necessary??

### Comment 21088

- Author: say8425
- Created: 2023-12-04T13:31:00+09:00
- Points: 1
- Parent comment: 21076
- Depth: 3

> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.  
  
속도에 치중되었기때문에, 대량의 OCR 이 요구되는 PDF 에는 안 맞을 확률이 높네요.  
OCR 이 되기는 되는데, 보장못함 이라고 이해하시면될 거 같네요.  
  
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.  
  
추가적으로 CJK 는 지원하지 않습니다.

### Comment 21089

- Author: hero512
- Created: 2023-12-04T13:45:14+09:00
- Points: 1
- Parent comment: 21088
- Depth: 4

감사합니다!
