ArXiv Paper Reader - ArXiv의 논문을 오디오/비디오로 읽게 해주는 오픈소스

xguru · 2024-03-20T10:16:01+09:00

ArXiv 논문을 간편하게 읽을 수 있도록 요약한뒤 GPT를 이용해서 오디오/영상으로 만들어주는 코드 시각적 학습자를 위해 논문을 동영상 형식으로, 청취를 선호하는 이들을 위해 오디오로 변환 동작 단계 ArXiv ID를 통해 논문 소스 코드 다운로드 latex2html 또는 latexmlc를 사용하여 LaTeX 코드를 HTML 페이지로 변환 HTML 페이지에서 텍스트와 수식 추출, 표와 그림 등은 무시 동영상 생성 시, PDF 페이지와 텍스트, 페이지 블록에 해당하는 텍스트 청크 매핑 텍스트를 섹션으로 나누고 OpenAI GPT API를 통해 문장을 재구성, 단순화 및 설명 GPT로 생성된 텍스트를 청크로 나누고 Google의 텍스트-음성 변환 API를 사용하여 오디오 변환 필요한 모든 부분을 패키징하여 비디오 처리를 위한 zip 파일 생성 이전에 계산된 텍스트-블록 맵을 사용하여 ffmpeg로 동영상 생성

(github.com/imelnyk)

6P by xguru 2024-03-20 | ★ favorite | 댓글 1개

ArXiv 논문을 간편하게 읽을 수 있도록 요약한뒤 GPT를 이용해서 오디오/영상으로 만들어주는 코드
시각적 학습자를 위해 논문을 동영상 형식으로, 청취를 선호하는 이들을 위해 오디오로 변환
동작 단계
- ArXiv ID를 통해 논문 소스 코드 다운로드
- latex2html 또는 latexmlc를 사용하여 LaTeX 코드를 HTML 페이지로 변환
- HTML 페이지에서 텍스트와 수식 추출, 표와 그림 등은 무시
- 동영상 생성 시, PDF 페이지와 텍스트, 페이지 블록에 해당하는 텍스트 청크 매핑
- 텍스트를 섹션으로 나누고 OpenAI GPT API를 통해 문장을 재구성, 단순화 및 설명
- GPT로 생성된 텍스트를 청크로 나누고 Google의 텍스트-음성 변환 API를 사용하여 오디오 변환
- 필요한 모든 부분을 패키징하여 비디오 처리를 위한 zip 파일 생성
- 이전에 계산된 텍스트-블록 맵을 사용하여 ffmpeg로 동영상 생성

xguru 2024-03-20 [-]

영상까지? 라고 놀라서 유튜브 가보니 그냥 논문 페이지 캡쳐 + 음성이네요.
OpenAI Sora 가 공개되면 아예 논문 자체를 더 해석해서 설명하는 영상까지도 생성이 가능하지 않을까 싶네요.

공식 YouTube 채널 : https://www.youtube.com/@ArxivPapers

답변달기

ArXiv Paper Reader - ArXiv의 논문을 오디오/비디오로 읽게 해주는 오픈소스

함께 보면 좋은 글 β

댓글과 토론