37P by xguru 11달전 | favorite | 댓글 6개
  • PDF, EPUB, MOBI 를 마크다운으로 변환
  • 페이스북 리서치가 만든 Nougat 보다 10배 이상 빠르고 더 정확하게 변환
  • 책과 논문 형식에 최적화됨
  • 헤더, 푸터 및 다른 아티팩트는 제거
  • 대부분의 수식은 LaTeX로 변환
  • 코드블록 및 테이블은 포맷팅
  • 다국어 지원

이런….
영어권 출판사들에게 시련이 닥치는군요.
몇볓 테크 위주 출판사들은 도서 구매 시 pdf 파일을 그냥 주는 곳도 더러 있는데, 어떻게 풀어나갈지 궁금하네요.

PDF는 OCR이 되어있어야 하는걸까요?? 당장 써봐야겟네요

readme만 봤을때는 OCR 작업도 수행해주는걸로 보이네요...제가 잘못읽었을수도...

네.. 영알못에겐 좀 어려운 표현을 사용했네요
Extract text, OCR if necessary??

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

속도에 치중되었기때문에, 대량의 OCR 이 요구되는 PDF 에는 안 맞을 확률이 높네요.
OCR 이 되기는 되는데, 보장못함 이라고 이해하시면될 거 같네요.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

추가적으로 CJK 는 지원하지 않습니다.

감사합니다!