yt-dlp 로 영상 다운받고, vtt 자막 timecode 기준으로 ffmpeg 을 이용해서 해당 지점 still image 를 추출한 후 페이지 구성을 하는 방식인것 같네요. ㅎㅎ