# ArXiv Paper Reader - ArXiv의 논문을 오디오/비디오로 읽게 해주는 오픈소스

> Clean Markdown view of GeekNews topic #13899. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=13899](https://news.hada.io/topic?id=13899)
- GeekNews Markdown: [https://news.hada.io/topic/13899.md](https://news.hada.io/topic/13899.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-03-20T10:16:01+09:00
- Updated: 2024-03-20T10:16:01+09:00
- Original source: [github.com/imelnyk](https://github.com/imelnyk/ArxivPapers)
- Points: 6
- Comments: 1

## Topic Body

- ArXiv 논문을 간편하게 읽을 수 있도록 요약한뒤 GPT를 이용해서 오디오/영상으로 만들어주는 코드   
- 시각적 학습자를 위해 논문을 동영상 형식으로, 청취를 선호하는 이들을 위해 오디오로 변환  
- 동작 단계   
  - ArXiv ID를 통해 논문 소스 코드 다운로드  
  - `latex2html` 또는 `latexmlc`를 사용하여 LaTeX 코드를 HTML 페이지로 변환  
  - HTML 페이지에서 텍스트와 수식 추출, 표와 그림 등은 무시  
  - 동영상 생성 시, PDF 페이지와 텍스트, 페이지 블록에 해당하는 텍스트 청크 매핑  
  - 텍스트를 섹션으로 나누고 OpenAI GPT API를 통해 문장을 재구성, 단순화 및 설명  
  - GPT로 생성된 텍스트를 청크로 나누고 Google의 텍스트-음성 변환 API를 사용하여 오디오 변환  
  - 필요한 모든 부분을 패키징하여 비디오 처리를 위한 zip 파일 생성  
  - 이전에 계산된 텍스트-블록 맵을 사용하여 `ffmpeg`로 동영상 생성

## Comments



### Comment 23867

- Author: xguru
- Created: 2024-03-20T10:17:01+09:00
- Points: 1

영상까지? 라고 놀라서 유튜브 가보니 그냥 논문 페이지 캡쳐 + 음성이네요.  
OpenAI Sora 가 공개되면 아예 논문 자체를 더 해석해서 설명하는 영상까지도 생성이 가능하지 않을까 싶네요.   
  
공식 YouTube 채널 : https://www.youtube.com/@ArxivPapers
