9P by xguru 2021-09-17 | favorite | 댓글 3개

- 머신러닝을 이용하여 PDF, LaTeX, PubMed Central XML 의 내용을 읽어서 HTML로 변환
- 접근성 증대 목적
- AI 기반 연구자료 검색엔진인 Semantic Scholar 의 실험적 프로토타입
- 현재는 추출된 이미지/콘텐츠만 캐슁하며, 똑같은 문서를 업로드한 사람에게만 빠르게 서비스하는 용도로 사용됨. 업로드한 파일은 보관하지 않음
- 제한 사항
ㅤ→ 표(Table)는 이미지로 추출 됨
ㅤ→ 수학(Math) 콘텐츠는 정확도가 낮거나 거의 추출되지 않음
ㅤ→ LaTex/PubMed 처리는 PDF보다 기능이 일부 부족할 수 있음
- 차후에 Semantic Scholar 에 접근성 기능을 추가할 계획을 가지고 있음

PDF를 다른 포맷(epub 좋아요)으로 변환할때 문제가 되는게 위에 나열된 표, 수식인데, 수식이 잘 안되면 뭐가 강점인지 모르겠네요.
--
데모 보니 쓸만하네요.

편하기는 할것 같은데, 본인의 논문이 HTML 형식으로 변환되는걸 원하지 않을 사람도 있을것 같아요. 뭔가 권리자가 변환에 대해서 opt-out 을 할 수 있으면 좋겠군요...

제가 옛날에 (진짜 옛날이네요 ㅜㅜ) LaTex로 논문을 쓰면서 엄청난 희열을 느꼈었거든요. 내용은 망이었지만, 렌더링이 너무나 깔끔하고 아름다워서 그때 느낀 감정이 여전히 기억납니다. 크누스옹은 신이다 신... 이라는 생각을 TeX을 보며 생각했는데... 아무튼, 본인이 쓴 저작물의 내용도 중요하지만, 그 논문의 형식이나 표현의 디테일도 중요하게 생각하는 사람들이 있을것 같다는 생각이 문득.

갤러리 둘러보니 품질은 꽤 쓸만하네요.
https://papertohtml.org/gallery

Google Scholar 에 이런게 적용되면 편하려나? 하는 생각은 드네요.