Spotify 전체 백업본 공개

(annas-archive.li)

29P by GN⁺ 6달전 | ★ favorite | 댓글 7개

Anna’s Archive가 Spotify의 메타데이터와 음악 파일 전체를 백업해 약 300TB 규모의 토렌트 아카이브로 공개
약 2억5600만 곡의 메타데이터와 8600만 개의 음악 파일을 포함, 청취량의 99.6% 를 포괄
OGG Vorbis 160kbit/s 원본 품질로 인기곡을, OGG Opus 75kbit/s로 비인기곡을 저장해 효율적 보존 달성
데이터는 SQLite 데이터베이스 형태로 제공되며, 플레이리스트·오디오 피처·앨범 아트 등 세부 구조까지 포함
인류의 음악 유산을 자연재해·전쟁·예산 삭감 등으로부터 영구 보존하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브

프로젝트 개요

Anna’s Archive는 Spotify의 전체 음악 메타데이터와 파일을 대규모로 스크레이핑하여 백업
- 총 용량 약 300TB, 인기 순으로 그룹화된 토렌트 형태로 배포
- 2억5600만 트랙, 1억8600만 개의 고유 ISRC 코드 포함
이 아카이브는 누구나 미러링 가능한 완전 공개형 음악 보존 저장소로, 8600만 개의 음악 파일을 포함
- 이는 Spotify 전체 청취의 약 99.6% 를 대표
Anna’s Archive는 기존에 텍스트 중심(책·논문 등) 보존에 집중했으나, 이번에는 음악이라는 비문자 매체로 확장
Spotify의 구조적 스크레이핑 방법을 발견한 후, 음악 보존 중심의 아카이브 구축을 추진

기존 음악 보존의 한계

기존 음악 보존 시도에는 세 가지 주요 문제 존재
1. 인기 아티스트 중심 편향으로 인해 비주류 음악이 소외
2. 무손실 음질 집착으로 인한 비효율적 저장 용량
3. 모든 음악을 대표하는 토렌트 목록 부재
이번 Spotify 백업은 이러한 문제를 보완해 보존 중심의 음악 아카이브를 구축

데이터 구성 및 통계

Spotify의 약 2억5600만 트랙 중 99.9%의 메타데이터 확보
인기 지표(popularity) 를 기준으로 우선순위 지정
- popularity>0 트랙은 OGG Vorbis 160kbit/s 원본 품질로 저장
- popularity=0 트랙은 OGG Opus 75kbit/s로 재인코딩
2025년 7월 이전 발매된 곡 대부분 포함
상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 하위 2천만~1억 곡 합계보다 많음
전체 곡 중 70% 이상이 청취 수 1000회 미만의 비인기곡

토렌트 배포 구조

데이터는 메타데이터와 음악 파일 두 부분으로 구성
- 메타데이터: SQLite DB로 제공, 약 200GB(압축)
- 오디오 분석 데이터: 4TB(압축)
음악 파일은 Anna’s Archive Containers (AAC) 포맷으로 배포
- Spotify의 잘못된 OGG 패킷 제거 후, 제목·ISRC·앨범 아트·리플레이게인 정보 등 메타데이터 삽입
- 일부 파일에서 REPLAYGAIN_ALBUM_PEAK 태그 오류 존재

데이터 탐색 및 분석

인기 분포: 대부분의 청취는 popularity 50~80 구간의 곡에서 발생
트랙 길이: 2분·3분·4분 단위에서 피크 발생
명시적(Explicit) 콘텐츠와 ISRC 중복 곡 통계 포함
아티스트 장르 분포: 세부 장르별 및 그룹화된 장르별 시각화 제공
앨범 발매 연도 분석: 최근 자동 생성·AI 생성 음악 급증
오디오 피처 분석: BPM 평균 약 120, loudness와 energy의 상관관계 확인

메타데이터 세부 구조

주요 SQLite 파일 구성
- spotify_clean.sqlite3: 아티스트·앨범·트랙의 거의 완전한 API 복제
- spotify_clean_audio_features.sqlite3: 트랙별 BPM, key, energy, valence 등 오디오 피처 저장
- spotify_clean_playlists.sqlite3: 660만 개 플레이리스트, 17억 개 트랙 항목 포함
- spotify_clean_track_files.sqlite3: 트랙과 실제 파일 간 매핑, 파일 상태·SHA256 해시·라이선서 정보 포함
추가 JSONL 파일로 오디오북·팟캐스트·쇼·에피소드 데이터 포함
spotify_2025_07_coverart.tar.torrent에는 앨범 아트 이미지 파일 저장

참여 및 보존 요청

Anna’s Archive는 기부 및 토렌트 시딩 참여를 요청
- 소규모 시딩만으로도 전체 보존에 기여 가능
목표는 자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존하는 것

추가 기능 및 실험

전체 Spotify 트랙을 대상으로 한 ‘True Shuffle’ 기능 구현 가능
- SQLite 쿼리를 통해 진정한 무작위 재생 목록 생성
향후 관심이 충분할 경우, 개별 파일 다운로드 기능 추가 가능성 언급

요약

Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 세계 최대 공개 음악 메타데이터베이스를 구축
완전 공개형 보존 아카이브로서 누구나 미러링 가능
데이터 구조의 투명성, 기술적 정밀성, 장기 보존성을 모두 갖춘 프로젝트
음악 산업의 상업적 플랫폼 의존성을 넘어, 문화적 기록의 영구 보존 기반을 마련

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

tested 6달전 [-]

스포티파이는 열받을려나요

답변달기

lsdcnu 5달전 [-]

https://news.hada.io/topic?id=26059
최근 뉴스를 보니 고소당했다고 하네요

답변달기

vndk2234 6달전 [-]

의적과 무법 사이 그 어딘가...

답변달기

roxie 6달전 [-]

저작권은,,,

답변달기

devworld 6달전 [-]

이제 기존에 Suno처럼 상용에만 머물던 음악 생성 모델들이 open-weight open-source로도 학습될 수 있겠네요

답변달기

daumkakao 6달전 [-]

엄청나네요 ㄷㄷㄷㄷ

답변달기

GN⁺ 6달전 [-]

Hacker News 의견들

정말 놀라운 일임
Spotify의 DRM이 뚫려서 이렇게 대규모로 다운로드가 가능해졌다는 건 몰랐음
일반 사용자에게는 큰 쓸모가 없어 보이지만, 음악 분류나 생성 연구자들에게는 엄청난 기회일 수 있음
다만, 어떤 데이터셋으로 학습했는지 공개하기 어려울 것 같음
이게 AI 연구자들의 요청에 따른 건지, 아니면 단순히 보존 목적인 건지 궁금함
- 일반 사용자에게 쓸모없다는 건 동의 못함
  이미 불법 TV·영화 스트리밍을 자동으로 찾아주는 기기나 앱이 대중화되어 있음
  기술적으로는 충분히 가능하고, 가족 중 비전문가도 이런 걸 쓰고 있음
  다만 Anna’s Archive 팀은 이념적 동기로 움직이는 집단이라 AI 기업을 위한 건 아님
- 나는 Spotify를 쓰지 않음
  음악이 필요하면 ytldp로 YouTube에서 받았지만 요즘은 그것도 거의 안 함
  음악보다 뉴스나 백그라운드용으로 YouTube를 더 많이 씀
  Google이 이걸 통제하는 게 좀 슬픔
- 사실 음악 파일보다 메타데이터가 더 가치 있을 수도 있음
- “음악 분류 연구자들을 위한 일”이라니, 예술가를 지원하지 않아도 된다는 자기합리화처럼 들림
  Spotify 같은 기업을 규제해서 뮤지션의 정당한 보상을 보장하는 게 진짜 방향임
  이런 데이터 공개는 오히려 AI 쓰레기 생성을 부추김
- 이런 자료로 Lidarr 같은 음악 자동 수집 툴을 트랙 단위로 만들기 쉬워질 것 같음
규모를 생각하면 정말 어마어마함
예전의 What.CD는 ‘음악계의 알렉산드리아 도서관’이라 불렸는데, 그때도 수백만 개 토렌트 수준이었음
그런데 Anna의 Spotify 립은 1억 8천6백만 개의 고유 레코드를 포함함
물론 끝부분엔 봇 음악 같은 것도 섞여 있겠지만, 규모 자체가 압도적임
- What.CD가 대단했던 건 단순한 양이 아니라 희귀성과 품질 때문이었음
  시골 밴드의 초창기 EP부터, 권리 관계가 불분명해 스트리밍에 못 올리는 희귀 음반까지 있었음
  커뮤니티의 추천과 리뷰, 수작업 플레이리스트가 만들어낸 발견의 즐거움은 알고리즘이 대체 못함
  덕분에 지금까지 좋아하는 아티스트를 많이 알게 되었음
- What.CD 이전에는 OiNK’s Pink Palace가 있었음
  순수하게 음악을 사랑하는 커뮤니티였고, Trent Reznor도 공개적으로 칭찬했음
  요즘은 이런 순수한 음악 커뮤니티가 사라져서 아쉬움
- 맞음, What.CD에는 CD, 부틀렉, 테이프 등 Spotify에 없는 음악이 많았음
  Spotify는 스트리밍 라이선스가 있는 곡만 포함하니까 한계가 있음
- 나도 YouTube Music에서 비주류 곡을 자주 듣는데, “Spotify에 없어서 아쉽다”는 댓글이 많음
  완전한 음악 아카이브가 되려면 아직 갈 길이 멂
- What.CD는 앨범 단위로 토렌트를 세었지만, Spotify는 팟캐스트나 AI 생성물까지 포함함
나는 이런 프로젝트가 꼭 필요하다고 생각함
Anna’s Archive 같은 곳은 Internet Archive만큼 중요함
웹사이트, 게임, 책 등 디지털 유산 보존이 핵심임
세대가 바뀌면서 과거 웹의 창의성을 경험하지 못하는 사람도 많음
지금 세대가 이런 걸 보존할 수 있는 기회를 가진 세대라고 생각함
요즘 음악과 영화가 플랫폼에서 하나씩 사라지는 시대라 이런 보존이 정말 중요함
나도 회색 처리된 플레이리스트가 세 개나 있음 — 제목조차 사라져서 뭘 들었는지 모름
그래서 영구히 갖고 싶은 음악은 CD로 사고, 댄스 음악은 그냥 흘려보냄
이런 작업은 정말 중요한 일임
10년 전 기사만 봐도 외부 링크 대부분이 404로 사라짐
모든 걸 보존해야 하는가에 대한 의문은 있지만, 가능하다면 보존해야 함
놀라움
Spotify를 대규모로 스크래핑했다는 사실 자체가 흥미로움
세부 방법은 공개하지 않겠지만, 읽어보면 재미있을 듯함
- 사실 그렇게 어렵지 않음
  다만 남용하지 말고 취미 프로젝트 수준에서 즐기는 게 좋음
  내 음악 서버도 이런 방식으로 Spotify 트랙을 재생함
  코드 링크
- 300TB의 데이터를 익명으로 전송했다는 점이 더 놀라움
- 아마 이런 툴을 썼을 것 같음 → spotizerr-spotify
개인적으로는 이건 별로 마음에 안 듦
더 좋은 음질의 소스가 이미 있고, 이런 대규모 립은 법적 위험만 키움
특히 전자책 라이브러리까지 위험해질까 걱정됨
공지문에서도 “음악은 이미 충분히 보존되어 있다”고 했는데, 별도 프로젝트로 분리했어야 함
독일 인터넷 제공업체(SIM.de/Drillisch)가 Anna’s Archive를 차단하고 있었음
VPN을 껐을 때 접속이 안 되고, Mullvad VPN을 켜야만 열림
독일에서 이런 검열이 있는 줄 몰랐음
- 나도 비슷한 경험을 함
  alextud popcorntime을 검색하면 PopcornTimeTV GitHub 결과가 안 나옴
  Google, Kagi, DuckDuckGo, Bing 모두 마찬가지임
  포크는 나오는데 원본은 안 나와서 검색 필터링이 의심스러움
예전에 여러 플랫폼에서 동시에 삭제된 음악들이 있었음
이런 아카이브에서 다시 찾을 수 있을지 궁금함
요즘은 현대판 잃어버린 미디어가 매일 생김
일부 퍼블리셔는 의도적으로 모든 복제본을 없애려 하는데, 그건 정신적으로 끔찍한 행위라고 생각함
창작물을 완전히 파괴하는 건 어떤 이유로도 정당화될 수 없음
철제 금고 속 테이프에만 남아 있다면, 그건 존재하지 않는 것과 다를 바 없음
기술적으로는 토렌트를 백엔드로 둔 스트리밍 서버를 만드는 것도 가능함
요청이 들어올 때마다 필요한 부분만 다운로드하는 방식임
- Spotify도 2014년까지는 P2P 스트리밍을 사용했었음
  관련 논문 링크
- 나도 최근 homelab *arr 스택을 구축했는데, 음악은 아직 가격 대비 필요성을 못 느낌
  Spotify가 아직은 싸서 신경 안 쓰지만, 아티스트 보상 문제는 여전함
  언젠가 토렌트 기반 셀프호스팅 음악 서버가 쉽게 구축되길 바람
- 기술적으로는 하면 안 되지만, 가능은 함
- 일종의 Popcorn Time 방식임

답변달기

Spotify 전체 백업본 공개

프로젝트 개요

기존 음악 보존의 한계

데이터 구성 및 통계

토렌트 배포 구조

데이터 탐색 및 분석

메타데이터 세부 구조

참여 및 보존 요청

추가 기능 및 실험

요약

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들