# Spotify 전체 백업본 공개

> Clean Markdown view of GeekNews topic #25216. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25216](https://news.hada.io/topic?id=25216)
- GeekNews Markdown: [https://news.hada.io/topic/25216.md](https://news.hada.io/topic/25216.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-21T09:37:44+09:00
- Updated: 2025-12-21T09:37:44+09:00
- Original source: [annas-archive.li](https://annas-archive.li/blog/backing-up-spotify.html)
- Points: 29
- Comments: 7

## Summary

Spotify의 전체 음악 메타데이터와 파일을 백업한 **Anna’s Archive**가 약 300TB 규모의 토렌트 아카이브를 공개했습니다. 2억5600만 곡의 메타데이터와 8600만 개의 음악 파일이 포함되어 있으며, 인기 지표에 따라 **OGG Vorbis 160kbit/s**와 **OGG Opus 75kbit/s**로 구분 저장해 효율적으로 보존했습니다. 데이터는 SQLite 형식으로 제공되어, 플레이리스트·오디오 피처·앨범 아트까지 탐색할 수 있는 완전 공개형 음악 보존 인프라를 구성합니다.

## Topic Body

- **Anna’s Archive**가 Spotify의 **메타데이터와 음악 파일 전체를 백업**해 약 **300TB 규모의 토렌트 아카이브**로 공개  
- 약 **2억5600만 곡의 메타데이터**와 **8600만 개의 음악 파일**을 포함, **청취량의 99.6%** 를 포괄  
- **OGG Vorbis 160kbit/s** 원본 품질로 인기곡을, **OGG Opus 75kbit/s**로 비인기곡을 저장해 효율적 보존 달성  
- 데이터는 **SQLite 데이터베이스** 형태로 제공되며, **플레이리스트·오디오 피처·앨범 아트** 등 세부 구조까지 포함  
- 인류의 음악 유산을 **자연재해·전쟁·예산 삭감 등으로부터 영구 보존**하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브  

---

### 프로젝트 개요
- Anna’s Archive는 Spotify의 **전체 음악 메타데이터와 파일을 대규모로 스크레이핑**하여 백업  
  - 총 용량 약 **300TB**, **인기 순으로 그룹화된 토렌트** 형태로 배포  
  - **2억5600만 트랙**, **1억8600만 개의 고유 ISRC 코드** 포함  
- 이 아카이브는 **누구나 미러링 가능한 완전 공개형 음악 보존 저장소**로, **8600만 개의 음악 파일**을 포함  
  - 이는 Spotify 전체 청취의 **약 99.6%** 를 대표  
- Anna’s Archive는 기존에 **텍스트 중심(책·논문 등)** 보존에 집중했으나, 이번에는 **음악이라는 비문자 매체**로 확장  
- Spotify의 구조적 스크레이핑 방법을 발견한 후, **음악 보존 중심의 아카이브 구축**을 추진  

### 기존 음악 보존의 한계
- 기존 음악 보존 시도에는 세 가지 주요 문제 존재  
  1. **인기 아티스트 중심 편향**으로 인해 비주류 음악이 소외  
  2. **무손실 음질 집착**으로 인한 비효율적 저장 용량  
  3. **모든 음악을 대표하는 토렌트 목록 부재**  
- 이번 Spotify 백업은 이러한 문제를 보완해 **보존 중심의 음악 아카이브**를 구축  

### 데이터 구성 및 통계
- Spotify의 약 **2억5600만 트랙 중 99.9%의 메타데이터** 확보  
- **인기 지표(popularity)** 를 기준으로 우선순위 지정  
  - `popularity>0` 트랙은 **OGG Vorbis 160kbit/s** 원본 품질로 저장  
  - `popularity=0` 트랙은 **OGG Opus 75kbit/s**로 재인코딩  
- **2025년 7월 이전** 발매된 곡 대부분 포함  
- 상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 **하위 2천만~1억 곡 합계보다 많음**  
- 전체 곡 중 **70% 이상이 청취 수 1000회 미만**의 비인기곡  

### 토렌트 배포 구조
- 데이터는 **메타데이터와 음악 파일** 두 부분으로 구성  
  - 메타데이터: **SQLite DB**로 제공, 약 **200GB(압축)**  
  - 오디오 분석 데이터: **4TB(압축)**  
- 음악 파일은 **Anna’s Archive Containers (AAC)** 포맷으로 배포  
  - Spotify의 잘못된 OGG 패킷 제거 후, **제목·ISRC·앨범 아트·리플레이게인 정보** 등 메타데이터 삽입  
  - 일부 파일에서 `REPLAYGAIN_ALBUM_PEAK` 태그 오류 존재  

### 데이터 탐색 및 분석
- **인기 분포**: 대부분의 청취는 `popularity 50~80` 구간의 곡에서 발생  
- **트랙 길이**: 2분·3분·4분 단위에서 피크 발생  
- **명시적(Explicit) 콘텐츠**와 **ISRC 중복 곡** 통계 포함  
- **아티스트 장르 분포**: 세부 장르별 및 그룹화된 장르별 시각화 제공  
- **앨범 발매 연도 분석**: 최근 자동 생성·AI 생성 음악 급증  
- **오디오 피처 분석**: BPM 평균 약 120, **loudness와 energy의 상관관계** 확인  

### 메타데이터 세부 구조
- 주요 SQLite 파일 구성  
  - `spotify_clean.sqlite3`: 아티스트·앨범·트랙의 거의 완전한 API 복제  
  - `spotify_clean_audio_features.sqlite3`: 트랙별 **BPM, key, energy, valence 등 오디오 피처** 저장  
  - `spotify_clean_playlists.sqlite3`: **660만 개 플레이리스트**, **17억 개 트랙 항목** 포함  
  - `spotify_clean_track_files.sqlite3`: 트랙과 실제 파일 간 매핑, **파일 상태·SHA256 해시·라이선서 정보** 포함  
- 추가 JSONL 파일로 **오디오북·팟캐스트·쇼·에피소드 데이터** 포함  
- `spotify_2025_07_coverart.tar.torrent`에는 **앨범 아트 이미지 파일** 저장  

### 참여 및 보존 요청
- Anna’s Archive는 **기부 및 토렌트 시딩 참여**를 요청  
  - 소규모 시딩만으로도 전체 보존에 기여 가능  
- 목표는 **자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존**하는 것  

### 추가 기능 및 실험
- 전체 Spotify 트랙을 대상으로 한 **‘True Shuffle’ 기능** 구현 가능  
  - SQLite 쿼리를 통해 **진정한 무작위 재생 목록** 생성  
- 향후 관심이 충분할 경우, **개별 파일 다운로드 기능** 추가 가능성 언급  

### 요약
- Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 **세계 최대 공개 음악 메타데이터베이스**를 구축  
- **완전 공개형 보존 아카이브**로서 누구나 미러링 가능  
- **데이터 구조의 투명성, 기술적 정밀성, 장기 보존성**을 모두 갖춘 프로젝트  
- 음악 산업의 상업적 플랫폼 의존성을 넘어, **문화적 기록의 영구 보존 기반**을 마련

## Comments



### Comment 48211

- Author: tested
- Created: 2025-12-24T12:44:13+09:00
- Points: 1

스포티파이는 열받을려나요

### Comment 49899

- Author: lsdcnu
- Created: 2026-01-25T22:56:01+09:00
- Points: 1
- Parent comment: 48211
- Depth: 1

https://news.hada.io/topic?id=26059  
최근 뉴스를 보니 고소당했다고 하네요

### Comment 48175

- Author: vndk2234
- Created: 2025-12-23T10:46:10+09:00
- Points: 1

의적과 무법 사이 그 어딘가...

### Comment 48088

- Author: roxie
- Created: 2025-12-21T23:06:17+09:00
- Points: 1

저작권은,,,

### Comment 48079

- Author: devworld
- Created: 2025-12-21T17:52:00+09:00
- Points: 1

이제 기존에 Suno처럼 상용에만 머물던 음악 생성 모델들이 open-weight open-source로도 학습될 수 있겠네요

### Comment 48073

- Author: daumkakao
- Created: 2025-12-21T13:01:30+09:00
- Points: 1

엄청나네요 ㄷㄷㄷㄷ

### Comment 48066

- Author: neo
- Created: 2025-12-21T09:37:44+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46338339) 
- 정말 놀라운 일임  
  Spotify의 **DRM이 뚫려서** 이렇게 대규모로 다운로드가 가능해졌다는 건 몰랐음  
  일반 사용자에게는 큰 쓸모가 없어 보이지만, 음악 **분류나 생성 연구자**들에게는 엄청난 기회일 수 있음  
  다만, 어떤 데이터셋으로 학습했는지 공개하기 어려울 것 같음  
  이게 AI 연구자들의 요청에 따른 건지, 아니면 단순히 **보존 목적**인 건지 궁금함
  - 일반 사용자에게 쓸모없다는 건 동의 못함  
    이미 불법 TV·영화 스트리밍을 자동으로 찾아주는 **기기나 앱**이 대중화되어 있음  
    기술적으로는 충분히 가능하고, 가족 중 비전문가도 이런 걸 쓰고 있음  
    다만 Anna’s Archive 팀은 **이념적 동기**로 움직이는 집단이라 AI 기업을 위한 건 아님
  - 나는 Spotify를 쓰지 않음  
    음악이 필요하면 **ytldp**로 YouTube에서 받았지만 요즘은 그것도 거의 안 함  
    음악보다 뉴스나 백그라운드용으로 YouTube를 더 많이 씀  
    Google이 이걸 통제하는 게 좀 슬픔
  - 사실 음악 파일보다 **메타데이터**가 더 가치 있을 수도 있음
  - “음악 분류 연구자들을 위한 일”이라니, 예술가를 지원하지 않아도 된다는 자기합리화처럼 들림  
    Spotify 같은 기업을 규제해서 **뮤지션의 정당한 보상**을 보장하는 게 진짜 방향임  
    이런 데이터 공개는 오히려 **AI 쓰레기 생성**을 부추김
  - 이런 자료로 **Lidarr** 같은 음악 자동 수집 툴을 트랙 단위로 만들기 쉬워질 것 같음

- 규모를 생각하면 정말 어마어마함  
  예전의 [What.CD](https://en.wikipedia.org/wiki/What.CD)는 ‘음악계의 알렉산드리아 도서관’이라 불렸는데, 그때도 수백만 개 토렌트 수준이었음  
  그런데 Anna의 Spotify 립은 **1억 8천6백만 개의 고유 레코드**를 포함함  
  물론 끝부분엔 봇 음악 같은 것도 섞여 있겠지만, 규모 자체가 압도적임
  - What.CD가 대단했던 건 단순한 양이 아니라 **희귀성과 품질** 때문이었음  
    시골 밴드의 초창기 EP부터, 권리 관계가 불분명해 스트리밍에 못 올리는 **희귀 음반**까지 있었음  
    커뮤니티의 추천과 리뷰, 수작업 플레이리스트가 만들어낸 **발견의 즐거움**은 알고리즘이 대체 못함  
    덕분에 지금까지 좋아하는 아티스트를 많이 알게 되었음
  - What.CD 이전에는 **OiNK’s Pink Palace**가 있었음  
    순수하게 음악을 사랑하는 커뮤니티였고, **Trent Reznor**도 공개적으로 칭찬했음  
    요즘은 이런 순수한 음악 커뮤니티가 사라져서 아쉬움
  - 맞음, What.CD에는 CD, 부틀렉, 테이프 등 **Spotify에 없는 음악**이 많았음  
    Spotify는 스트리밍 라이선스가 있는 곡만 포함하니까 한계가 있음
  - 나도 YouTube Music에서 **비주류 곡**을 자주 듣는데, “Spotify에 없어서 아쉽다”는 댓글이 많음  
    완전한 음악 아카이브가 되려면 아직 갈 길이 멂
  - What.CD는 앨범 단위로 토렌트를 세었지만, Spotify는 **팟캐스트나 AI 생성물**까지 포함함

- 나는 이런 프로젝트가 꼭 필요하다고 생각함  
  Anna’s Archive 같은 곳은 **Internet Archive**만큼 중요함  
  웹사이트, 게임, 책 등 **디지털 유산 보존**이 핵심임  
  세대가 바뀌면서 과거 웹의 창의성을 경험하지 못하는 사람도 많음  
  지금 세대가 이런 걸 보존할 수 있는 **기회를 가진 세대**라고 생각함
- 요즘 음악과 영화가 플랫폼에서 하나씩 사라지는 시대라 이런 보존이 정말 중요함  
  나도 **회색 처리된 플레이리스트**가 세 개나 있음 — 제목조차 사라져서 뭘 들었는지 모름  
  그래서 영구히 갖고 싶은 음악은 CD로 사고, **댄스 음악**은 그냥 흘려보냄
- 이런 작업은 정말 **중요한 일**임  
  10년 전 기사만 봐도 외부 링크 대부분이 404로 사라짐  
  모든 걸 보존해야 하는가에 대한 의문은 있지만, 가능하다면 **보존해야 함**
- 놀라움  
  Spotify를 **대규모로 스크래핑**했다는 사실 자체가 흥미로움  
  세부 방법은 공개하지 않겠지만, 읽어보면 재미있을 듯함
  - 사실 그렇게 어렵지 않음  
    다만 남용하지 말고 **취미 프로젝트** 수준에서 즐기는 게 좋음  
    내 음악 서버도 이런 방식으로 Spotify 트랙을 재생함  
    [코드 링크](https://codeberg.org/raphson/music-server/src/branch/main/spotify-sync)
  - **300TB의 데이터를 익명으로 전송**했다는 점이 더 놀라움
  - 아마 이런 툴을 썼을 것 같음 → [spotizerr-spotify](https://github.com/nor-dee/spotizerr-spotify)

- 개인적으로는 이건 별로 마음에 안 듦  
  더 좋은 음질의 소스가 이미 있고, 이런 대규모 립은 **법적 위험**만 키움  
  특히 **전자책 라이브러리**까지 위험해질까 걱정됨  
  공지문에서도 “음악은 이미 충분히 보존되어 있다”고 했는데, 별도 프로젝트로 분리했어야 함
- 독일 인터넷 제공업체(SIM.de/Drillisch)가 [Anna’s Archive](https://annas-archive.li/)를 **차단**하고 있었음  
  VPN을 껐을 때 접속이 안 되고, **Mullvad VPN**을 켜야만 열림  
  독일에서 이런 검열이 있는 줄 몰랐음
  - 나도 비슷한 경험을 함  
    `alextud popcorntime`을 검색하면 [PopcornTimeTV GitHub](http://github.com/alextud/PopcornTimeTV) 결과가 안 나옴  
    Google, Kagi, DuckDuckGo, Bing 모두 마찬가지임  
    포크는 나오는데 원본은 안 나와서 **검색 필터링**이 의심스러움

- 예전에 여러 플랫폼에서 동시에 **삭제된 음악들**이 있었음  
  이런 아카이브에서 다시 찾을 수 있을지 궁금함  
  요즘은 **현대판 잃어버린 미디어**가 매일 생김  
  일부 퍼블리셔는 의도적으로 모든 복제본을 없애려 하는데, 그건 **정신적으로 끔찍한 행위**라고 생각함  
  창작물을 완전히 파괴하는 건 어떤 이유로도 정당화될 수 없음  
  철제 금고 속 테이프에만 남아 있다면, 그건 존재하지 않는 것과 다를 바 없음
- 기술적으로는 토렌트를 백엔드로 둔 **스트리밍 서버**를 만드는 것도 가능함  
  요청이 들어올 때마다 필요한 부분만 다운로드하는 방식임
  - Spotify도 2014년까지는 **P2P 스트리밍**을 사용했었음  
    [관련 논문 링크](https://www.scribd.com/document/56651812/kreitz-spotify-kth11)
  - 나도 최근 **homelab *arr 스택**을 구축했는데, 음악은 아직 가격 대비 필요성을 못 느낌  
    Spotify가 아직은 싸서 신경 안 쓰지만, **아티스트 보상 문제**는 여전함  
    언젠가 **토렌트 기반 셀프호스팅 음악 서버**가 쉽게 구축되길 바람
  - 기술적으로는 하면 안 되지만, **가능은 함**
  - 일종의 **Popcorn Time** 방식임
