15P by GN⁺ 18시간전 | ★ favorite | 댓글 4개
  • Anna’s Archive가 Spotify의 메타데이터와 음악 파일 전체를 백업해 약 300TB 규모의 토렌트 아카이브로 공개
  • 2억5600만 곡의 메타데이터8600만 개의 음악 파일을 포함, 청취량의 99.6% 를 포괄
  • OGG Vorbis 160kbit/s 원본 품질로 인기곡을, OGG Opus 75kbit/s로 비인기곡을 저장해 효율적 보존 달성
  • 데이터는 SQLite 데이터베이스 형태로 제공되며, 플레이리스트·오디오 피처·앨범 아트 등 세부 구조까지 포함
  • 인류의 음악 유산을 자연재해·전쟁·예산 삭감 등으로부터 영구 보존하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브

프로젝트 개요

  • Anna’s Archive는 Spotify의 전체 음악 메타데이터와 파일을 대규모로 스크레이핑하여 백업
    • 총 용량 약 300TB, 인기 순으로 그룹화된 토렌트 형태로 배포
    • 2억5600만 트랙, 1억8600만 개의 고유 ISRC 코드 포함
  • 이 아카이브는 누구나 미러링 가능한 완전 공개형 음악 보존 저장소로, 8600만 개의 음악 파일을 포함
    • 이는 Spotify 전체 청취의 약 99.6% 를 대표
  • Anna’s Archive는 기존에 텍스트 중심(책·논문 등) 보존에 집중했으나, 이번에는 음악이라는 비문자 매체로 확장
  • Spotify의 구조적 스크레이핑 방법을 발견한 후, 음악 보존 중심의 아카이브 구축을 추진

기존 음악 보존의 한계

  • 기존 음악 보존 시도에는 세 가지 주요 문제 존재
    1. 인기 아티스트 중심 편향으로 인해 비주류 음악이 소외
    2. 무손실 음질 집착으로 인한 비효율적 저장 용량
    3. 모든 음악을 대표하는 토렌트 목록 부재
  • 이번 Spotify 백업은 이러한 문제를 보완해 보존 중심의 음악 아카이브를 구축

데이터 구성 및 통계

  • Spotify의 약 2억5600만 트랙 중 99.9%의 메타데이터 확보
  • 인기 지표(popularity) 를 기준으로 우선순위 지정
    • popularity>0 트랙은 OGG Vorbis 160kbit/s 원본 품질로 저장
    • popularity=0 트랙은 OGG Opus 75kbit/s로 재인코딩
  • 2025년 7월 이전 발매된 곡 대부분 포함
  • 상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 하위 2천만~1억 곡 합계보다 많음
  • 전체 곡 중 70% 이상이 청취 수 1000회 미만의 비인기곡

토렌트 배포 구조

  • 데이터는 메타데이터와 음악 파일 두 부분으로 구성
    • 메타데이터: SQLite DB로 제공, 약 200GB(압축)
    • 오디오 분석 데이터: 4TB(압축)
  • 음악 파일은 Anna’s Archive Containers (AAC) 포맷으로 배포
    • Spotify의 잘못된 OGG 패킷 제거 후, 제목·ISRC·앨범 아트·리플레이게인 정보 등 메타데이터 삽입
    • 일부 파일에서 REPLAYGAIN_ALBUM_PEAK 태그 오류 존재

데이터 탐색 및 분석

  • 인기 분포: 대부분의 청취는 popularity 50~80 구간의 곡에서 발생
  • 트랙 길이: 2분·3분·4분 단위에서 피크 발생
  • 명시적(Explicit) 콘텐츠ISRC 중복 곡 통계 포함
  • 아티스트 장르 분포: 세부 장르별 및 그룹화된 장르별 시각화 제공
  • 앨범 발매 연도 분석: 최근 자동 생성·AI 생성 음악 급증
  • 오디오 피처 분석: BPM 평균 약 120, loudness와 energy의 상관관계 확인

메타데이터 세부 구조

  • 주요 SQLite 파일 구성
    • spotify_clean.sqlite3: 아티스트·앨범·트랙의 거의 완전한 API 복제
    • spotify_clean_audio_features.sqlite3: 트랙별 BPM, key, energy, valence 등 오디오 피처 저장
    • spotify_clean_playlists.sqlite3: 660만 개 플레이리스트, 17억 개 트랙 항목 포함
    • spotify_clean_track_files.sqlite3: 트랙과 실제 파일 간 매핑, 파일 상태·SHA256 해시·라이선서 정보 포함
  • 추가 JSONL 파일로 오디오북·팟캐스트·쇼·에피소드 데이터 포함
  • spotify_2025_07_coverart.tar.torrent에는 앨범 아트 이미지 파일 저장

참여 및 보존 요청

  • Anna’s Archive는 기부 및 토렌트 시딩 참여를 요청
    • 소규모 시딩만으로도 전체 보존에 기여 가능
  • 목표는 자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존하는 것

추가 기능 및 실험

  • 전체 Spotify 트랙을 대상으로 한 ‘True Shuffle’ 기능 구현 가능
    • SQLite 쿼리를 통해 진정한 무작위 재생 목록 생성
  • 향후 관심이 충분할 경우, 개별 파일 다운로드 기능 추가 가능성 언급

요약

  • Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 세계 최대 공개 음악 메타데이터베이스를 구축
  • 완전 공개형 보존 아카이브로서 누구나 미러링 가능
  • 데이터 구조의 투명성, 기술적 정밀성, 장기 보존성을 모두 갖춘 프로젝트
  • 음악 산업의 상업적 플랫폼 의존성을 넘어, 문화적 기록의 영구 보존 기반을 마련

이제 기존에 Suno처럼 상용에만 머물던 음악 생성 모델들이 open-weight open-source로도 학습될 수 있겠네요

엄청나네요 ㄷㄷㄷㄷ

Hacker News 의견들
  • 정말 놀라운 일임
    Spotify의 DRM이 뚫려서 이렇게 대규모로 다운로드가 가능해졌다는 건 몰랐음
    일반 사용자에게는 큰 쓸모가 없어 보이지만, 음악 분류나 생성 연구자들에게는 엄청난 기회일 수 있음
    다만, 어떤 데이터셋으로 학습했는지 공개하기 어려울 것 같음
    이게 AI 연구자들의 요청에 따른 건지, 아니면 단순히 보존 목적인 건지 궁금함

    • 일반 사용자에게 쓸모없다는 건 동의 못함
      이미 불법 TV·영화 스트리밍을 자동으로 찾아주는 기기나 앱이 대중화되어 있음
      기술적으로는 충분히 가능하고, 가족 중 비전문가도 이런 걸 쓰고 있음
      다만 Anna’s Archive 팀은 이념적 동기로 움직이는 집단이라 AI 기업을 위한 건 아님
    • 나는 Spotify를 쓰지 않음
      음악이 필요하면 ytldp로 YouTube에서 받았지만 요즘은 그것도 거의 안 함
      음악보다 뉴스나 백그라운드용으로 YouTube를 더 많이 씀
      Google이 이걸 통제하는 게 좀 슬픔
    • 사실 음악 파일보다 메타데이터가 더 가치 있을 수도 있음
    • “음악 분류 연구자들을 위한 일”이라니, 예술가를 지원하지 않아도 된다는 자기합리화처럼 들림
      Spotify 같은 기업을 규제해서 뮤지션의 정당한 보상을 보장하는 게 진짜 방향임
      이런 데이터 공개는 오히려 AI 쓰레기 생성을 부추김
    • 이런 자료로 Lidarr 같은 음악 자동 수집 툴을 트랙 단위로 만들기 쉬워질 것 같음
  • 규모를 생각하면 정말 어마어마함
    예전의 What.CD는 ‘음악계의 알렉산드리아 도서관’이라 불렸는데, 그때도 수백만 개 토렌트 수준이었음
    그런데 Anna의 Spotify 립은 1억 8천6백만 개의 고유 레코드를 포함함
    물론 끝부분엔 봇 음악 같은 것도 섞여 있겠지만, 규모 자체가 압도적임

    • What.CD가 대단했던 건 단순한 양이 아니라 희귀성과 품질 때문이었음
      시골 밴드의 초창기 EP부터, 권리 관계가 불분명해 스트리밍에 못 올리는 희귀 음반까지 있었음
      커뮤니티의 추천과 리뷰, 수작업 플레이리스트가 만들어낸 발견의 즐거움은 알고리즘이 대체 못함
      덕분에 지금까지 좋아하는 아티스트를 많이 알게 되었음
    • What.CD 이전에는 OiNK’s Pink Palace가 있었음
      순수하게 음악을 사랑하는 커뮤니티였고, Trent Reznor도 공개적으로 칭찬했음
      요즘은 이런 순수한 음악 커뮤니티가 사라져서 아쉬움
    • 맞음, What.CD에는 CD, 부틀렉, 테이프 등 Spotify에 없는 음악이 많았음
      Spotify는 스트리밍 라이선스가 있는 곡만 포함하니까 한계가 있음
    • 나도 YouTube Music에서 비주류 곡을 자주 듣는데, “Spotify에 없어서 아쉽다”는 댓글이 많음
      완전한 음악 아카이브가 되려면 아직 갈 길이 멂
    • What.CD는 앨범 단위로 토렌트를 세었지만, Spotify는 팟캐스트나 AI 생성물까지 포함함
  • 나는 이런 프로젝트가 꼭 필요하다고 생각함
    Anna’s Archive 같은 곳은 Internet Archive만큼 중요함
    웹사이트, 게임, 책 등 디지털 유산 보존이 핵심임
    세대가 바뀌면서 과거 웹의 창의성을 경험하지 못하는 사람도 많음
    지금 세대가 이런 걸 보존할 수 있는 기회를 가진 세대라고 생각함

  • 요즘 음악과 영화가 플랫폼에서 하나씩 사라지는 시대라 이런 보존이 정말 중요함
    나도 회색 처리된 플레이리스트가 세 개나 있음 — 제목조차 사라져서 뭘 들었는지 모름
    그래서 영구히 갖고 싶은 음악은 CD로 사고, 댄스 음악은 그냥 흘려보냄

  • 이런 작업은 정말 중요한 일
    10년 전 기사만 봐도 외부 링크 대부분이 404로 사라짐
    모든 걸 보존해야 하는가에 대한 의문은 있지만, 가능하다면 보존해야 함

  • 놀라움
    Spotify를 대규모로 스크래핑했다는 사실 자체가 흥미로움
    세부 방법은 공개하지 않겠지만, 읽어보면 재미있을 듯함

    • 사실 그렇게 어렵지 않음
      다만 남용하지 말고 취미 프로젝트 수준에서 즐기는 게 좋음
      내 음악 서버도 이런 방식으로 Spotify 트랙을 재생함
      코드 링크
    • 300TB의 데이터를 익명으로 전송했다는 점이 더 놀라움
    • 아마 이런 툴을 썼을 것 같음 → spotizerr-spotify
  • 개인적으로는 이건 별로 마음에 안 듦
    더 좋은 음질의 소스가 이미 있고, 이런 대규모 립은 법적 위험만 키움
    특히 전자책 라이브러리까지 위험해질까 걱정됨
    공지문에서도 “음악은 이미 충분히 보존되어 있다”고 했는데, 별도 프로젝트로 분리했어야 함

  • 독일 인터넷 제공업체(SIM.de/Drillisch)가 Anna’s Archive차단하고 있었음
    VPN을 껐을 때 접속이 안 되고, Mullvad VPN을 켜야만 열림
    독일에서 이런 검열이 있는 줄 몰랐음

    • 나도 비슷한 경험을 함
      alextud popcorntime을 검색하면 PopcornTimeTV GitHub 결과가 안 나옴
      Google, Kagi, DuckDuckGo, Bing 모두 마찬가지임
      포크는 나오는데 원본은 안 나와서 검색 필터링이 의심스러움
  • 예전에 여러 플랫폼에서 동시에 삭제된 음악들이 있었음
    이런 아카이브에서 다시 찾을 수 있을지 궁금함
    요즘은 현대판 잃어버린 미디어가 매일 생김
    일부 퍼블리셔는 의도적으로 모든 복제본을 없애려 하는데, 그건 정신적으로 끔찍한 행위라고 생각함
    창작물을 완전히 파괴하는 건 어떤 이유로도 정당화될 수 없음
    철제 금고 속 테이프에만 남아 있다면, 그건 존재하지 않는 것과 다를 바 없음

  • 기술적으로는 토렌트를 백엔드로 둔 스트리밍 서버를 만드는 것도 가능함
    요청이 들어올 때마다 필요한 부분만 다운로드하는 방식임

    • Spotify도 2014년까지는 P2P 스트리밍을 사용했었음
      관련 논문 링크
    • 나도 최근 homelab *arr 스택을 구축했는데, 음악은 아직 가격 대비 필요성을 못 느낌
      Spotify가 아직은 싸서 신경 안 쓰지만, 아티스트 보상 문제는 여전함
      언젠가 토렌트 기반 셀프호스팅 음악 서버가 쉽게 구축되길 바람
    • 기술적으로는 하면 안 되지만, 가능은 함
    • 일종의 Popcorn Time 방식임