1P by neo 7달전 | favorite | 댓글 1개

이 요청에 대한 내용을 요약할 수 없음. 제공된 기사의 내용이 "403 Forbiddennginx"라는 오류 메시지로, 실제 기사의 내용이 아닌 접근 권한이 없음을 나타내는 HTTP 상태 코드임. 이는 일반적으로 웹 서버가 요청을 이해했지만, 그 요청을 수행할 권한이 없을 때 발생하는 오류임.

GN⁺의 의견

  • "403 Forbidden" 오류는 웹 개발자나 시스템 관리자에게 익숙한 문제로, 권한 설정이나 서버 구성 오류로 인해 발생할 수 있음.
  • 이 오류 메시지는 사용자가 웹사이트의 특정 부분에 접근하려 할 때 서버가 접근을 거부했음을 의미함.
  • 이러한 오류는 웹 보안과 관련이 깊으며, 사용자가 적절한 권한 없이 민감한 정보에 접근하는 것을 방지하는 중요한 기능임.
Hacker News 의견
    • 이것은 샘플링을 하는 매우 영리한 방법이며, 저자들에게 박수를 보낸다. Pew에서 일할 때 YouTube를 API의 "관련 동영상" 엔드포인트를 통한 무작위 탐색으로 매핑하려고 시도했었는데, 1년 후에 포화 상태에 도달한 것처럼 보였다. 그러나 여기서 설명한 크기는 레이더 아래에서 날아가는 긴 꼬리가 있다는 것을 시사한다. 우리가 연구를 발표한 직후 Google은 API를 거의 즉시 잠그기 시작했지만, 사람들이 여전히 구식 스크래핑으로 연구를 추구하는 것을 보니 기쁘다. 우리의 분석은 채널 수준에서 이루어졌고 인기 있는 채널에만 초점을 맞췄지만, TubeStats의 일부 수치가 우리가 발견한 것과 상당히 가깝다는 것이 흥미롭다(예: 언어 분포).*
    • 영리한 샘플링 방법에 대한 칭찬과, Pew에서의 유사한 연구 경험 공유
    • Google이 API 접근을 제한했지만, 스크래핑을 통한 연구가 계속되는 것에 대한 긍정적인 반응
    • 자신의 연구와 TubeStats의 데이터가 유사한 점에 대한 언급
    • 이것은 독일 탱크 문제에 대한 완화 공격 방법으로 흥미롭다. 최적의 해결책은 주소 공간을 늘려 무작위 샘플이 통계적으로 유의미한 결론에 도달하는 데 필요한 데이터를 수집하는 것을 방지하는 것일 것이다. 다른 좋은 해결책도 있겠지만, 진정으로 무작위 샘플은 그런 방향을 제한할 것이다.*
    • 독일 탱크 문제에 대한 참조와 함께 데이터 수집을 방지하기 위한 주소 공간 확장 제안
    • "YouTube 싫어요" 데이터셋을 확인할 것을 추천한다. 이 데이터셋은 싫어요 기능이 제거되기 전에 정보를 수집하기 위한 보관 노력으로 만들어졌다. 이를 사용하여 가장 논란이 많은 동영상, 특정 언어로 설명된 상위 동영상 등을 찾을 수 있다.*
    • YouTube 싫어요 데이터셋을 활용한 분석 가능성에 대한 정보 제공
    • YouTube가 얼마나 많은 데이터를 가지고 있는지 알아보려고 했지만, 그 숫자는 나오지 않았다. 평균 동영상 길이를 500초로, 비트레이트를 400 KB/s로 가정하고, 13억 개의 동영상을 기준으로 2.7엑사바이트를 계산했다. 이는 YouTube가 인기 있는 동영상을 여러 데이터센터에 저장하고, VP9 및 AV1 형식으로 저장한다는 점을 고려하면 저장소에 필요한 양보다 낮은 추정이다. YouTube가 인기 없는 동영상을 압축하거나 다른 형식에서 온디맨드로 트랜스코딩할 가능성이 있지만, 이는 추정치를 높게 만들 수 있으나, 그렇다고 생각하지 않는다.*
    • YouTube 데이터의 양에 대한 추정치 제공 및 저장 방식에 대한 추측
    • Google은 일부 포지션에 대해 YouTube의 확장 문제를 묻곤 했다. 종종 성장하는 분산 인프라에서 로그 데이터를 동기화하는 것에 대한 빅-O 복잡도 질문으로 이어졌다. 결과는 거의 설명할 수 없을 정도로 복잡한 빅-O(f(n)) 함수였다. 재미있었다.*
    • Google 인터뷰 경험을 바탕으로 한 YouTube 확장성 문제에 대한 언급
    • 이 기사의 결과는 다음과 같은 동반 웹사이트이다: TubeStats.org*
    • 기사와 관련된 웹사이트 링크 제공
    • 너무 크다. 어제 밤에 내 전화로 YouTube 앱을 업데이트하라는 알림이 왔다. 문제는 그것이 내 전화에서 실행되는 마지막 버전이라는 것이다. 적어도 웹은 아직 작동한다.*
    • YouTube 앱의 크기와 업데이트 문제에 대한 개인적 경험 공유
    • 이 데이터셋은 재미있다. 논문은 채널 통계에 대해 약간의 잘못된 인상을 준다: 샘플링 경향을 수정하여 구독자 수를 재조정하지 않는다면, 주어진 채널이 나타날 확률이 해당 채널의 공개 동영상 수에 비례하기 때문에 채널 당 동영상 수에 대해 ~1/#로 가중치를 두어야 한다.*
    • 채널 통계에 대한 데이터셋의 오해 가능성과 샘플링 방법에 대한 설명
    • 샘플링 함수는 모든 "지역 코드"에 동일한 수의 사용 가능한 번호가 포함되어 있다고 가정하는가? 일부 큰 사이트(예: 트위터 등)의 경우, 더 많이 요청되는 데이터를 보유한 샤드는 훨씬 밀도가 낮을 수 있다. 예를 들어, 저스틴 비버가 있는 지역 코드에는 번호가 더 적을 것이다. 이것은 상당히 왜곡될 수 있다.*
    • 샘플링 방법에 대한 의문 제기 및 특정 데이터 샤드의 밀도 차이가 결과에 미치는 영향에 대한 지적
    • 특정 웹사이트에 대한 감탄 표현