- user agent 적당한거 넣는것
- 병렬로는 동접 몇개 이상으로 차단되는거면, 그냥 vm 여러개 띄워서 ip를 여러개 쓰는것 (비용이 문제겠죠)
- 수집해야하는 목록이 아주 많은게 아니라면 어딘가 큐에 넣어놓고 하나씩 (또는 허용되는 동접 N개씩) 큐에서 꺼내서 다운받는 것
- 수집할때 간격에 적당한 슬립 딜레이 시간 넣고, 딜레이에 약간의 랜덤시간을 추가로 더해서 최대한 봇 아닌것 처럼 보이게 하는 것
...정도 이네요. 사용자가 직접 추가하면 3번이 관련된 부분일 것 같아요.
답변 감사합니다!
1, 3, 4번은 적용되어 있습니다. 2번은 Replit 개발서버가 아마 가상으로 돌아가는 것 같아서 차단이 안되는거 같고 배포서버는 차단되는거 같습니다. 찾아보니 AWS 같은 곳은 거의 차단된다고 하네요. 딱히 정답이 없는듯ㅠㅜ..
아, 혹시 영상을 전체 재생하면서 요약하는건가요? 아니면 영상의 스크립트만 가지고 요약하는건가요? yt-dlp이면 전자여서 앙상 시간만큼은 걸릴텐데, 후자면 금방 끝나서 3번만으로 충분할 것 같아요. 결과물의 퀄리티 차이가 날수는 있겠지만요.
유튜브 UI상에는 자막(스크립트)를 시간별로 볼 수 있는 화면이 있는데, 이것만 파싱하면 크롤링하는 시간을 훨씬 단축할 수 있을 것 같습니다. 여러 크롬 플러그인도 그거 보고 요약해주는 것으로 알고 있어요.
네 맞습니다. 원래 YouTube Data API로 스크립트를 받아서 사용하는게 좋은데 테스트해보면 거의 다 스크립트가 없다고 리턴하더라구요ㅠㅜ 업로더가 설정을 해야 한다는데
ytdlp에 자막 다운로드 받는 기능이 있습니다. 그 자동생성된 자막으로 다운로드 되어 오타가 있긴 하지만 저는 그걸로 AI에 던져서 요약본을 생성해서 사용하고 있습니다.
원래 계획은 사용자가 추가하고 공유하는 것이었는데 배포서버에서는 YouTube bot 차단정책에 100%로 차단되더라구요ㅠㅜ 그래서 현재는 채널을 골라 개발서버에서 추가중입니다.
yt-dlp를 사용중인데 혹시 이 문제를 해결할 방법이 있으면 공유부탁드립니다..LilysAI 같은건 어떻게 하는건지 모르겠네요..