오 이거 너무 좋네요. 채널을 제공되는 것 중에 선택하지 않고, 유튜브 채널 URL을 넣어서 직접 추가할 수는 없을까요?

원래 계획은 사용자가 추가하고 공유하는 것이었는데 배포서버에서는 YouTube bot 차단정책에 100%로 차단되더라구요ㅠㅜ 그래서 현재는 채널을 골라 개발서버에서 추가중입니다.
yt-dlp를 사용중인데 혹시 이 문제를 해결할 방법이 있으면 공유부탁드립니다..LilysAI 같은건 어떻게 하는건지 모르겠네요..

  1. user agent 적당한거 넣는것
  2. 병렬로는 동접 몇개 이상으로 차단되는거면, 그냥 vm 여러개 띄워서 ip를 여러개 쓰는것 (비용이 문제겠죠)
  3. 수집해야하는 목록이 아주 많은게 아니라면 어딘가 큐에 넣어놓고 하나씩 (또는 허용되는 동접 N개씩) 큐에서 꺼내서 다운받는 것
  4. 수집할때 간격에 적당한 슬립 딜레이 시간 넣고, 딜레이에 약간의 랜덤시간을 추가로 더해서 최대한 봇 아닌것 처럼 보이게 하는 것

...정도 이네요. 사용자가 직접 추가하면 3번이 관련된 부분일 것 같아요.

답변 감사합니다!
1, 3, 4번은 적용되어 있습니다. 2번은 Replit 개발서버가 아마 가상으로 돌아가는 것 같아서 차단이 안되는거 같고 배포서버는 차단되는거 같습니다. 찾아보니 AWS 같은 곳은 거의 차단된다고 하네요. 딱히 정답이 없는듯ㅠㅜ..

아, 혹시 영상을 전체 재생하면서 요약하는건가요? 아니면 영상의 스크립트만 가지고 요약하는건가요? yt-dlp이면 전자여서 앙상 시간만큼은 걸릴텐데, 후자면 금방 끝나서 3번만으로 충분할 것 같아요. 결과물의 퀄리티 차이가 날수는 있겠지만요.

오디오 파일만 분할로 받아서 스크립트로 추출하고 있습니다.

유튜브 UI상에는 자막(스크립트)를 시간별로 볼 수 있는 화면이 있는데, 이것만 파싱하면 크롤링하는 시간을 훨씬 단축할 수 있을 것 같습니다. 여러 크롬 플러그인도 그거 보고 요약해주는 것으로 알고 있어요.

네 맞습니다. 원래 YouTube Data API로 스크립트를 받아서 사용하는게 좋은데 테스트해보면 거의 다 스크립트가 없다고 리턴하더라구요ㅠㅜ 업로더가 설정을 해야 한다는데

ytdlp에 자막 다운로드 받는 기능이 있습니다. 그 자동생성된 자막으로 다운로드 되어 오타가 있긴 하지만 저는 그걸로 AI에 던져서 요약본을 생성해서 사용하고 있습니다.

오 몰랐던 정보군요. AI가 제시해준대로 하다보니 이런문제가 있네요. 오디오 추출보다 빨라질거 같네요 테스트해보겠습니다!

https://github.com/ysm-dev/cpdown

이것도 비슷한방식으로 만들었어요.
코드 뜯어보세요 :)

여기도 참고하겠습니다 :)

아하. 쉽지 않군요..