PDF2JSON - PDF를 JSON으로 추출해주는 도구
(github.com)- XPDF 기반, C코드로 된 빠른 변환 오픈소스 라이브러리
- 윈/맥/리눅스용 실행파일 제공
- 폰트포함해서 PDF내부의 텍스트들을 x,y 좌표로 추출
기존에 pdf.js 를 이용한 자바스크립트 버전 pdf2json 도 있는데 이건 XPDF 를 사용합니다.
https://github.com/mozilla/pdf.js/
https://github.com/modesty/pdf2json
일반적인 PDF 기능은 Apache PDFBox 를 이용하면 됩니다.
https://pdfbox.apache.org/
PDFBox는 Java 라이브러리로 PDF생성, 추출, 분할&합병, 이미지로 변환 등이 다 가능합니다.