# ArtifactNet: 코덱 물리학으로 AI 생성 음악을 탐지하는 경량 포렌식 프레임워크

> Clean Markdown view of GeekNews topic #28708. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28708](https://news.hada.io/topic?id=28708)
- GeekNews Markdown: [https://news.hada.io/topic/28708.md](https://news.hada.io/topic/28708.md)
- Type: news
- Author: [unohee](https://news.hada.io/@unohee)
- Published: 2026-04-20T11:28:14+09:00
- Updated: 2026-04-20T11:28:14+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2604.16254)
- Points: 2
- Comments: 1

## Topic Body

Suno, Udio, MusicGen, Stable Audio 등 모든 상용 AI 음악 생성기는 피할 수 없는   
물리적 제약을 공유합니다. 생성된 오디오가 반드시 Residual Vector Quantization   
(RVQ)을 통과해야 한다는 점입니다.  
  
RVQ는 연속적인 오디오 표현을 이산 코드북 벡터에 매핑합니다. 이 과정에서   
발생하는 양자화 갭은 비가역적입니다. 인간 음악으로만 훈련된 음원 분리 모델이   
AI 생성 오디오를 처리할 때, 이 갭이 비정상적으로 크고 구조화된 재구성 잔차로   
나타납니다. 이것이 포렌식 신호입니다.  
  
기존 탐지기(CLAM, SpecTTTra)는 학습 분포 내에서는 잘 작동하지만 새로운   
생성기에서 무너집니다. ArtifactNet은 AI 음악이 어떻게 들리는지가 아니라   
왜 물리적으로 다른지를 탐지합니다.  
  
---  
  
파이프라인 (총 4.0M 파라미터):  
  
1. ArtifactUNet (3.6M) — STFT magnitude에 [0, 0.5]로 제한된 곱셈 마스크를   
예측하는 bounded-mask UNet. Demucs v4 잔차를 교사로 2단계 지식 증류 학습.  
  
2. 7채널 HPSS 포렌식 피처 — 잔차를 조화음/타악음 성분으로 분해 후   
시간 미분, 스펙트럴 플럭스와 결합.  
  
3. 경량 CNN (0.4M) — 4초 세그먼트 처리, 곡 단위 중앙값 판정.  
  
---  
  
물리적 증거: 음원 분리 잔차의 유효 대역폭 측정 (n=94):  
  
- 인간 음악: 평균 1,996 Hz  
- AI 평균 (22개 생성기): 291 Hz  
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz  
  
아키텍처와 무관하게 모든 AI 생성기가 200 Hz 부근에 집중됩니다.  
  
---  
  
ArtifactBench 결과 (6,183트랙, 22개 생성기, 학습-테스트 중복 없음):  
  
모델        | 파라미터 | F1    | FPR  
------------|---------|-------|------  
ArtifactNet | 4M      | 0.983 | 1.5%  
CLAM        | 194M    | 0.758 | 69.3%  
SpecTTTra   | 19M     | 0.771 | 19.4%  
  
CLAM은 실제 음악을 AI로 오탐하는 비율이 69.3%로, 판별기로서 사실상   
무의미한 수준입니다. SONICS/MoM 벤치마크는 real 세트를 YouTube ID로만   
배포하는데, 상당수가 삭제/비공개 처리되어 원본 기준 F1 비교가 불가능합니다.   
ArtifactBench는 직접 수집·검증한 real 파티션으로 세 모델을 동일 조건에서   
비교합니다.  
  
---  
  
한계: 44.1kHz 입력 필요; 저비트레이트 MP3에서 FPR ~8%;   
단일 패스 Demucs 세탁 공격 시 TPR 94%로 감소; 최신 Udio TPR = 87%.  
  
---  
  
데모 (~5초): https://demo.intrect.io/  
논문: https://arxiv.org/abs/2604.16254  
모델 + 벤치마크 (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet  
특허 출원 중 (KR + PCT)

## Comments


### Comment 55898

- Author: unsure4000
- Created: 2026-04-20T13:53:28+09:00
- Points: 2

본인 논문인것 같아 보이는데 맞나요?