Marker - PDF를 마크다운으로 변환하는 오픈소스
(github.com/VikParuchuri)- PDF, EPUB, MOBI 를 마크다운으로 변환
- 페이스북 리서치가 만든 Nougat 보다 10배 이상 빠르고 더 정확하게 변환
- 책과 논문 형식에 최적화됨
- 헤더, 푸터 및 다른 아티팩트는 제거
- 대부분의 수식은 LaTeX로 변환
- 코드블록 및 테이블은 포맷팅
- 다국어 지원
이런….
영어권 출판사들에게 시련이 닥치는군요.
몇볓 테크 위주 출판사들은 도서 구매 시 pdf 파일을 그냥 주는 곳도 더러 있는데, 어떻게 풀어나갈지 궁금하네요.
This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
속도에 치중되었기때문에, 대량의 OCR 이 요구되는 PDF 에는 안 맞을 확률이 높네요.
OCR 이 되기는 되는데, 보장못함 이라고 이해하시면될 거 같네요.
Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
추가적으로 CJK 는 지원하지 않습니다.