Spotify 전체 백업본 공개
(annas-archive.li)- Anna’s Archive가 Spotify의 메타데이터와 음악 파일 전체를 백업해 약 300TB 규모의 토렌트 아카이브로 공개
- 약 2억5600만 곡의 메타데이터와 8600만 개의 음악 파일을 포함, 청취량의 99.6% 를 포괄
- OGG Vorbis 160kbit/s 원본 품질로 인기곡을, OGG Opus 75kbit/s로 비인기곡을 저장해 효율적 보존 달성
- 데이터는 SQLite 데이터베이스 형태로 제공되며, 플레이리스트·오디오 피처·앨범 아트 등 세부 구조까지 포함
- 인류의 음악 유산을 자연재해·전쟁·예산 삭감 등으로부터 영구 보존하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브
프로젝트 개요
- Anna’s Archive는 Spotify의 전체 음악 메타데이터와 파일을 대규모로 스크레이핑하여 백업
- 총 용량 약 300TB, 인기 순으로 그룹화된 토렌트 형태로 배포
- 2억5600만 트랙, 1억8600만 개의 고유 ISRC 코드 포함
- 이 아카이브는 누구나 미러링 가능한 완전 공개형 음악 보존 저장소로, 8600만 개의 음악 파일을 포함
- 이는 Spotify 전체 청취의 약 99.6% 를 대표
- Anna’s Archive는 기존에 텍스트 중심(책·논문 등) 보존에 집중했으나, 이번에는 음악이라는 비문자 매체로 확장
- Spotify의 구조적 스크레이핑 방법을 발견한 후, 음악 보존 중심의 아카이브 구축을 추진
기존 음악 보존의 한계
- 기존 음악 보존 시도에는 세 가지 주요 문제 존재
- 인기 아티스트 중심 편향으로 인해 비주류 음악이 소외
- 무손실 음질 집착으로 인한 비효율적 저장 용량
- 모든 음악을 대표하는 토렌트 목록 부재
- 이번 Spotify 백업은 이러한 문제를 보완해 보존 중심의 음악 아카이브를 구축
데이터 구성 및 통계
- Spotify의 약 2억5600만 트랙 중 99.9%의 메타데이터 확보
-
인기 지표(popularity) 를 기준으로 우선순위 지정
-
popularity>0트랙은 OGG Vorbis 160kbit/s 원본 품질로 저장 -
popularity=0트랙은 OGG Opus 75kbit/s로 재인코딩
-
- 2025년 7월 이전 발매된 곡 대부분 포함
- 상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 하위 2천만~1억 곡 합계보다 많음
- 전체 곡 중 70% 이상이 청취 수 1000회 미만의 비인기곡
토렌트 배포 구조
- 데이터는 메타데이터와 음악 파일 두 부분으로 구성
- 메타데이터: SQLite DB로 제공, 약 200GB(압축)
- 오디오 분석 데이터: 4TB(압축)
- 음악 파일은 Anna’s Archive Containers (AAC) 포맷으로 배포
- Spotify의 잘못된 OGG 패킷 제거 후, 제목·ISRC·앨범 아트·리플레이게인 정보 등 메타데이터 삽입
- 일부 파일에서
REPLAYGAIN_ALBUM_PEAK태그 오류 존재
데이터 탐색 및 분석
-
인기 분포: 대부분의 청취는
popularity 50~80구간의 곡에서 발생 - 트랙 길이: 2분·3분·4분 단위에서 피크 발생
- 명시적(Explicit) 콘텐츠와 ISRC 중복 곡 통계 포함
- 아티스트 장르 분포: 세부 장르별 및 그룹화된 장르별 시각화 제공
- 앨범 발매 연도 분석: 최근 자동 생성·AI 생성 음악 급증
- 오디오 피처 분석: BPM 평균 약 120, loudness와 energy의 상관관계 확인
메타데이터 세부 구조
- 주요 SQLite 파일 구성
-
spotify_clean.sqlite3: 아티스트·앨범·트랙의 거의 완전한 API 복제 -
spotify_clean_audio_features.sqlite3: 트랙별 BPM, key, energy, valence 등 오디오 피처 저장 -
spotify_clean_playlists.sqlite3: 660만 개 플레이리스트, 17억 개 트랙 항목 포함 -
spotify_clean_track_files.sqlite3: 트랙과 실제 파일 간 매핑, 파일 상태·SHA256 해시·라이선서 정보 포함
-
- 추가 JSONL 파일로 오디오북·팟캐스트·쇼·에피소드 데이터 포함
-
spotify_2025_07_coverart.tar.torrent에는 앨범 아트 이미지 파일 저장
참여 및 보존 요청
- Anna’s Archive는 기부 및 토렌트 시딩 참여를 요청
- 소규모 시딩만으로도 전체 보존에 기여 가능
- 목표는 자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존하는 것
추가 기능 및 실험
- 전체 Spotify 트랙을 대상으로 한 ‘True Shuffle’ 기능 구현 가능
- SQLite 쿼리를 통해 진정한 무작위 재생 목록 생성
- 향후 관심이 충분할 경우, 개별 파일 다운로드 기능 추가 가능성 언급
요약
- Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 세계 최대 공개 음악 메타데이터베이스를 구축
- 완전 공개형 보존 아카이브로서 누구나 미러링 가능
- 데이터 구조의 투명성, 기술적 정밀성, 장기 보존성을 모두 갖춘 프로젝트
- 음악 산업의 상업적 플랫폼 의존성을 넘어, 문화적 기록의 영구 보존 기반을 마련
Hacker News 의견들
-
정말 놀라운 일임
Spotify의 DRM이 뚫려서 이렇게 대규모로 다운로드가 가능해졌다는 건 몰랐음
일반 사용자에게는 큰 쓸모가 없어 보이지만, 음악 분류나 생성 연구자들에게는 엄청난 기회일 수 있음
다만, 어떤 데이터셋으로 학습했는지 공개하기 어려울 것 같음
이게 AI 연구자들의 요청에 따른 건지, 아니면 단순히 보존 목적인 건지 궁금함- 일반 사용자에게 쓸모없다는 건 동의 못함
이미 불법 TV·영화 스트리밍을 자동으로 찾아주는 기기나 앱이 대중화되어 있음
기술적으로는 충분히 가능하고, 가족 중 비전문가도 이런 걸 쓰고 있음
다만 Anna’s Archive 팀은 이념적 동기로 움직이는 집단이라 AI 기업을 위한 건 아님 - 나는 Spotify를 쓰지 않음
음악이 필요하면 ytldp로 YouTube에서 받았지만 요즘은 그것도 거의 안 함
음악보다 뉴스나 백그라운드용으로 YouTube를 더 많이 씀
Google이 이걸 통제하는 게 좀 슬픔 - 사실 음악 파일보다 메타데이터가 더 가치 있을 수도 있음
- “음악 분류 연구자들을 위한 일”이라니, 예술가를 지원하지 않아도 된다는 자기합리화처럼 들림
Spotify 같은 기업을 규제해서 뮤지션의 정당한 보상을 보장하는 게 진짜 방향임
이런 데이터 공개는 오히려 AI 쓰레기 생성을 부추김 - 이런 자료로 Lidarr 같은 음악 자동 수집 툴을 트랙 단위로 만들기 쉬워질 것 같음
- 일반 사용자에게 쓸모없다는 건 동의 못함
-
규모를 생각하면 정말 어마어마함
예전의 What.CD는 ‘음악계의 알렉산드리아 도서관’이라 불렸는데, 그때도 수백만 개 토렌트 수준이었음
그런데 Anna의 Spotify 립은 1억 8천6백만 개의 고유 레코드를 포함함
물론 끝부분엔 봇 음악 같은 것도 섞여 있겠지만, 규모 자체가 압도적임- What.CD가 대단했던 건 단순한 양이 아니라 희귀성과 품질 때문이었음
시골 밴드의 초창기 EP부터, 권리 관계가 불분명해 스트리밍에 못 올리는 희귀 음반까지 있었음
커뮤니티의 추천과 리뷰, 수작업 플레이리스트가 만들어낸 발견의 즐거움은 알고리즘이 대체 못함
덕분에 지금까지 좋아하는 아티스트를 많이 알게 되었음 - What.CD 이전에는 OiNK’s Pink Palace가 있었음
순수하게 음악을 사랑하는 커뮤니티였고, Trent Reznor도 공개적으로 칭찬했음
요즘은 이런 순수한 음악 커뮤니티가 사라져서 아쉬움 - 맞음, What.CD에는 CD, 부틀렉, 테이프 등 Spotify에 없는 음악이 많았음
Spotify는 스트리밍 라이선스가 있는 곡만 포함하니까 한계가 있음 - 나도 YouTube Music에서 비주류 곡을 자주 듣는데, “Spotify에 없어서 아쉽다”는 댓글이 많음
완전한 음악 아카이브가 되려면 아직 갈 길이 멂 - What.CD는 앨범 단위로 토렌트를 세었지만, Spotify는 팟캐스트나 AI 생성물까지 포함함
- What.CD가 대단했던 건 단순한 양이 아니라 희귀성과 품질 때문이었음
-
나는 이런 프로젝트가 꼭 필요하다고 생각함
Anna’s Archive 같은 곳은 Internet Archive만큼 중요함
웹사이트, 게임, 책 등 디지털 유산 보존이 핵심임
세대가 바뀌면서 과거 웹의 창의성을 경험하지 못하는 사람도 많음
지금 세대가 이런 걸 보존할 수 있는 기회를 가진 세대라고 생각함 -
요즘 음악과 영화가 플랫폼에서 하나씩 사라지는 시대라 이런 보존이 정말 중요함
나도 회색 처리된 플레이리스트가 세 개나 있음 — 제목조차 사라져서 뭘 들었는지 모름
그래서 영구히 갖고 싶은 음악은 CD로 사고, 댄스 음악은 그냥 흘려보냄 -
이런 작업은 정말 중요한 일임
10년 전 기사만 봐도 외부 링크 대부분이 404로 사라짐
모든 걸 보존해야 하는가에 대한 의문은 있지만, 가능하다면 보존해야 함 -
놀라움
Spotify를 대규모로 스크래핑했다는 사실 자체가 흥미로움
세부 방법은 공개하지 않겠지만, 읽어보면 재미있을 듯함- 사실 그렇게 어렵지 않음
다만 남용하지 말고 취미 프로젝트 수준에서 즐기는 게 좋음
내 음악 서버도 이런 방식으로 Spotify 트랙을 재생함
코드 링크 - 300TB의 데이터를 익명으로 전송했다는 점이 더 놀라움
- 아마 이런 툴을 썼을 것 같음 → spotizerr-spotify
- 사실 그렇게 어렵지 않음
-
개인적으로는 이건 별로 마음에 안 듦
더 좋은 음질의 소스가 이미 있고, 이런 대규모 립은 법적 위험만 키움
특히 전자책 라이브러리까지 위험해질까 걱정됨
공지문에서도 “음악은 이미 충분히 보존되어 있다”고 했는데, 별도 프로젝트로 분리했어야 함 -
독일 인터넷 제공업체(SIM.de/Drillisch)가 Anna’s Archive를 차단하고 있었음
VPN을 껐을 때 접속이 안 되고, Mullvad VPN을 켜야만 열림
독일에서 이런 검열이 있는 줄 몰랐음- 나도 비슷한 경험을 함
alextud popcorntime을 검색하면 PopcornTimeTV GitHub 결과가 안 나옴
Google, Kagi, DuckDuckGo, Bing 모두 마찬가지임
포크는 나오는데 원본은 안 나와서 검색 필터링이 의심스러움
- 나도 비슷한 경험을 함
-
예전에 여러 플랫폼에서 동시에 삭제된 음악들이 있었음
이런 아카이브에서 다시 찾을 수 있을지 궁금함
요즘은 현대판 잃어버린 미디어가 매일 생김
일부 퍼블리셔는 의도적으로 모든 복제본을 없애려 하는데, 그건 정신적으로 끔찍한 행위라고 생각함
창작물을 완전히 파괴하는 건 어떤 이유로도 정당화될 수 없음
철제 금고 속 테이프에만 남아 있다면, 그건 존재하지 않는 것과 다를 바 없음 -
기술적으로는 토렌트를 백엔드로 둔 스트리밍 서버를 만드는 것도 가능함
요청이 들어올 때마다 필요한 부분만 다운로드하는 방식임- Spotify도 2014년까지는 P2P 스트리밍을 사용했었음
관련 논문 링크 - 나도 최근 homelab *arr 스택을 구축했는데, 음악은 아직 가격 대비 필요성을 못 느낌
Spotify가 아직은 싸서 신경 안 쓰지만, 아티스트 보상 문제는 여전함
언젠가 토렌트 기반 셀프호스팅 음악 서버가 쉽게 구축되길 바람 - 기술적으로는 하면 안 되지만, 가능은 함
- 일종의 Popcorn Time 방식임
- Spotify도 2014년까지는 P2P 스트리밍을 사용했었음