Marker - PDF를 마크다운으로 변환하는 오픈소스

xguru · 2023-12-04T10:04:01+09:00

PDF, EPUB, MOBI 를 마크다운으로 변환 페이스북 리서치가 만든 Nougat 보다 10배 이상 빠르고 더 정확하게 변환 책과 논문 형식에 최적화됨 헤더, 푸터 및 다른 아티팩트는 제거 대부분의 수식은 LaTeX로 변환 코드블록 및 테이블은 포맷팅 다국어 지원

(github.com/VikParuchuri)

37P by xguru 2023-12-04 | ★ favorite | 댓글 6개

PDF, EPUB, MOBI 를 마크다운으로 변환
페이스북 리서치가 만든 Nougat 보다 10배 이상 빠르고 더 정확하게 변환
책과 논문 형식에 최적화됨
헤더, 푸터 및 다른 아티팩트는 제거
대부분의 수식은 LaTeX로 변환
코드블록 및 테이블은 포맷팅
다국어 지원

bus710 2023-12-05 [-]

이런….
영어권 출판사들에게 시련이 닥치는군요.
몇볓 테크 위주 출판사들은 도서 구매 시 pdf 파일을 그냥 주는 곳도 더러 있는데, 어떻게 풀어나갈지 궁금하네요.

답변달기

hero512 2023-12-04 [-]

PDF는 OCR이 되어있어야 하는걸까요?? 당장 써봐야겟네요

답변달기

limc132 2023-12-04 [-]

readme만 봤을때는 OCR 작업도 수행해주는걸로 보이네요...제가 잘못읽었을수도...

답변달기

hero512 2023-12-04 [-]

네.. 영알못에겐 좀 어려운 표현을 사용했네요
Extract text, OCR if necessary??

답변달기

say8425 2023-12-04 [-]

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

속도에 치중되었기때문에, 대량의 OCR 이 요구되는 PDF 에는 안 맞을 확률이 높네요.
OCR 이 되기는 되는데, 보장못함 이라고 이해하시면될 거 같네요.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

추가적으로 CJK 는 지원하지 않습니다.

답변달기

hero512 2023-12-04 [-]

감사합니다!

답변달기

Marker - PDF를 마크다운으로 변환하는 오픈소스

함께 보면 좋은 글 β

댓글과 토론