borb - PDF 읽기/쓰기/편집용 파이썬 오픈소스 라이브러리
(github.com)- PDF 문서를 JSON 비슷한 데이터 구조로 나타내어 쉽게 사용 가능
ㅤ→ Nested list, dictionary, primitive 등
- PDF를 처음부터 생성 하기
ㅤ→ Page, PageLayout 생성
ㅤ→ Paragraph, Image, Shape, Barcode, Chart, Emoji, List, Table, Form 등 생성
- 기존 PDF 변경하기
ㅤ→ 메타 데이터 추출 및 변경
ㅤ→ 텍스트/이미지 추출
ㅤ→ 이미지 변경
ㅤ→ Annotation (Note, Link 등) 추가
ㅤ→ 텍스트/테이블/리스트 추가
ㅤ→ 페이지 레이아웃 관리자 이용하기
몇일전 올라온 서비스중에 논문을 HTML로 변환하는 것도 있었는데,
관건은 multi-column에서 text 읽는 순서, 이미지의 범위 등이네요.
이런 서비스로 논문의 serialization 성숙해지고 요약서비스도 곧 나올듯 ㅎㅎ