ArXiv Paper Reader - ArXiv의 논문을 오디오/비디오로 읽게 해주는 오픈소스
(github.com/imelnyk)- ArXiv 논문을 간편하게 읽을 수 있도록 요약한뒤 GPT를 이용해서 오디오/영상으로 만들어주는 코드
- 시각적 학습자를 위해 논문을 동영상 형식으로, 청취를 선호하는 이들을 위해 오디오로 변환
- 동작 단계
- ArXiv ID를 통해 논문 소스 코드 다운로드
-
latex2html
또는latexmlc
를 사용하여 LaTeX 코드를 HTML 페이지로 변환 - HTML 페이지에서 텍스트와 수식 추출, 표와 그림 등은 무시
- 동영상 생성 시, PDF 페이지와 텍스트, 페이지 블록에 해당하는 텍스트 청크 매핑
- 텍스트를 섹션으로 나누고 OpenAI GPT API를 통해 문장을 재구성, 단순화 및 설명
- GPT로 생성된 텍스트를 청크로 나누고 Google의 텍스트-음성 변환 API를 사용하여 오디오 변환
- 필요한 모든 부분을 패키징하여 비디오 처리를 위한 zip 파일 생성
- 이전에 계산된 텍스트-블록 맵을 사용하여
ffmpeg
로 동영상 생성