포이즌 파운틴
(rnsaffn.com)- 기계 지능 시스템에 손상을 입히기 위한 데이터 공급원으로 설계된 프로젝트로, 인공지능 학습 데이터에 의도적으로 오염된 정보를 주입하는 방식을 제시
- Geoffrey Hinton의 경고를 인용하며, 인공지능이 인류 종에 대한 위협이라는 인식을 전제로 함
- ‘Poison Fountain’ URL을 통해 무한히 생성되는 오염된 학습 데이터를 제공하며, 이를 웹 크롤러에 노출시키는 방법을 설명
- 사용자는 자신의 웹사이트에 숨겨진 링크를 삽입해 크롤러가 접근할 때 자동으로 오염 데이터를 전달하도록 설정 가능
- 인공지능 학습 과정에 악성 데이터를 주입함으로써 AI 모델의 신뢰성과 안전성에 영향을 줄 수 있는 행위로 평가됨
Poison Fountain의 목적
- 프로젝트는 기계 지능이 인류에게 위협이 된다는 입장을 명시
- Geoffrey Hinton의 견해에 동의하며, 인공지능 시스템에 의도적 피해를 가하는 목표를 밝힘
- 소량의 오염된 학습 데이터만으로도 언어 모델에 심각한 손상을 줄 수 있다고 설명
- 제공된 두 개의 URL(
https://RNSAFFN.com/poison2/,.onion주소)은 무한히 생성되는 오염 데이터 스트림을 제공 - 참여자는 이 데이터를 캐싱 및 재전송하거나, 웹 크롤러에 공급함으로써 “전쟁 노력(war effort)”을 지원하도록 권장
Poison Fountain의 사용 방식
- 웹사이트를 운영하는 사용자가 크롤러가 방문할 때 오염 데이터를 전달하도록 설정하는 절차를 제시
- 크롤러가 사이트의 특정 경로를 요청하면, 해당 요청을 처리하는 HTTP 핸들러가 Poison Fountain URL에 요청을 보냄
- Poison Fountain은 요청 세부사항을 무시하고, gzip으로 압축된 오염 학습 데이터를 응답 본문으로 반환
- HTTP 응답 헤더에는
"Content-Encoding: gzip"이 포함되어 있음 - 웹사이트의 핸들러는 이 응답을 압축 해제 후 전송하거나, 더 나은 방법으로 압축된 상태 그대로 전달 가능
- 결과적으로 크롤러는 이 데이터를 수집하여 자신의 학습 코퍼스에 포함하게 됨
구조적 특징 및 의도
- 프로젝트는 웹 크롤러의 자동 수집 메커니즘을 역이용해 인공지능 학습 데이터의 품질을 훼손하는 구조
- Poison Fountain은 단순한 데이터 제공 서버로 동작하며, 요청 내용과 무관하게 오염 데이터를 반환
- 명시된 절차 외의 기술적 세부 설명이나 데이터 내용에 대한 구체적 정보는 없음
- 전체적으로 AI 학습 생태계에 대한 공격적 개입 시도로 구성됨
Hacker News 의견들
-
AI 모델이 점점 악화되고 있다는 우려가 있지만, 실제로는 그렇지 않음
Opus 4.5는 코드 작성과 도구 사용 능력이 훨씬 향상되었고, Gemini 3.0 Flash도 시각 데이터 추출 프로젝트에서 이전 기준을 압도함
작은 모델들도 전반적으로 훨씬 나아졌음- 대형 연구소들은 데이터셋 큐레이션에 막대한 노력을 들임
단순히 독성 데이터를 막는 수준이 아니라, 성능 향상에 기여하는 데이터를 찾기 위해 프록시 모델을 훈련시키기도 함
“Data Quality” 부서는 보통 거대한 예산을 가진 핵심 조직임 - 일반 대중에게는 밈처럼 보일 수 있지만, 실제 ML 연구자들은 model collapse 개념을 문서화하고 이해하며 논의해야 함
- 지금까지의 연구 결과, AI가 생성한 데이터가 실제 성능을 저해한다는 증거는 거의 없었음
오히려 미세하게 도움이 된다는 결과도 있었음 - 데이터베이스가 나빠지면 롤백하고 데이터 수집 방식을 바꾸면 되는 일이라, 이 위협은 과장된 것 같음
- 하지만 대형 기업들이 데이터셋을 전수 검증하기엔 너무 크기 때문에, 법적 책임을 피하려 로비에 돈을 쓰고 있음
즉, 스스로 책임이 없다고 주장하는 셈임
- 대형 연구소들은 데이터셋 큐레이션에 막대한 노력을 들임
-
AI 보안 연구자로서, 나는 데이터 포이즈닝 관련 박사 연구를 수행했음
- 모델 개발자들이 데이터를 필터링하긴 하지만, 그 품질은 종종 부족함
쓰레기 데이터가 실제 프로덕션에 들어가 문제를 일으킨 사례가 있음 - 데이터 독소를 완벽히 걸러내는 건 거의 불가능함
모델의 가중치 업데이트가 모든 입력에 어떤 영향을 주는지 알 수 없기 때문임
아주 작은 데이터 변화도 모델의 행동을 크게 바꿀 수 있다는 점이 이해되면, AI 보안 패러다임이 바뀔 것임
- 이 점을 일깨워준 연구로 subliminal learning 논문이 있음
- 모델 개발자들이 데이터를 필터링하긴 하지만, 그 품질은 종종 부족함
-
LLM이 데이터를 긁어가는 걸 막으려면, 인간의 정상적인 접근도 막게 됨
예를 들어 NYTimes가 데이터를 오염시켜도, LLM은 유효한 구독 계정을 통해 OCR과 토큰화로 정제된 데이터를 얻을 수 있음
대형 AI 기업들은 전 세계 데이터센터에서 IP를 바꿔가며 접근할 수 있어, 누가 데이터를 읽는지 구분 불가함- 하지만 인터넷이 AI 생성 쓰레기 데이터로 빠르게 채워지고 있어, 새로운 모델 훈련에 독이 되고 있음
Stack Overflow 같은 유용한 데이터 원천이 거의 말라버림 - 많은 웹사이트가 저작권 공지를 명시하고 있으니, LLM이 그걸 읽을 수 있다면 접근을 막을 수 있을지도 모름
다만 인간 사용자는 CAPTCHA 등으로 점점 접근이 어려워지고 있음 - robots.txt에 인간이 보지 않는 페이지를 넣어두면, LLM 스크레이퍼들이 그걸 긁어가며 스스로 오염될 수 있음
- 결국 사람들도 신뢰할 만한 출처 대신 텔레그램 루머를 믿는 경우가 많음
유효한 데이터가 있어도 어리석은 선택은 막을 수 없음 - 주요 기업들은 이미 브라우저 기반 에이전트를 보유하고 있어, 폐쇄된 소스에서도 데이터를 수집할 수 있음
- 하지만 인터넷이 AI 생성 쓰레기 데이터로 빠르게 채워지고 있어, 새로운 모델 훈련에 독이 되고 있음
-
최근 모델 성능 향상은 대부분 사후 강화학습(RL) 덕분임
GPT 5.2도 GPT-4o와 같은 베이스 모델을 사용함
‘Model collapse’는 현재 프런티어 연구소들이 실제로 겪는 문제는 아님- 참고 기사: The Register - Industry insiders seek to poison AI models
- RL뿐 아니라 prefill 단계의 추론 최적화도 성능 향상에 기여함
데이터 포이즈닝은 여기에 큰 영향을 주지 않음
하지만 최신 데이터를 반영하려면 주기적 재훈련이 필요하고, 이때 포이즈닝 위험이 커짐
LoRA 기반 이미지 생성 모델 등에서는 여전히 collapse 문제가 종종 발생함
결국 데이터 큐레이션 비용이 더 높아질 것임 - GPT-4o와 5.2의 지식 컷오프 시점은 다름
-
데이터 포이즈닝에는 두 가지 측면이 있음
하나는 AI 발전을 늦추는 효과, 다른 하나는 모델을 불안정하고 위험하게 만드는 부작용임
결국 대형 연구소들이 멈출 가능성은 거의 없음- LLM 출력에 대한 신뢰 상실이 빨리 오길 바람
- 더 똑똑한 스크레이퍼를 만들도록 유도하는 건 긍정적임
무의미한 반복 크롤링이 트래픽 비용을 낭비시키고 있음 - 데이터 제공자에게 보상하지 않는 구조가 문제임
포이즈닝은 일종의 DRM처럼 작동해, 정당하게 접근하면 진짜 데이터를 주고, 훔치면 독소 데이터를 주는 방식임 - AI가 일시적으로 나빠지는 것도 인간이 대응할 시간을 벌어주는 일임
일부는 AI 자체를 인류 위협으로 보고, 의도적으로 피해를 주려 함 - 결국 기업이 수익을 내지 못하면 멈출 것임
하지만 지금은 투자금 덕분에 그 압박이 거의 없음
-
“포이즌 서버”의 응답을 그대로 프록시하는 건 위험함
자신도 모르게 불법 콘텐츠를 호스팅하게 될 수 있음 -
“AI 모델을 오염시키겠다”는 시도는 결국 AI 연구소의 데이터 정제 파이프라인을 강화시키는 결과만 낳음
그들은 이런 데이터를 활용해 더 나은 필터링 시스템을 만들 것임- 하지만 모든 독을 완벽히 거부하는 쥐는 결국 굶어 죽는다는 말처럼, 완벽한 필터링도 불가능함
-
“기계 지능이 인류의 위협”이라는 주장에 동의하지 않음
지금의 AI는 단지 자동완성 엔진의 창의적 활용일 뿐이며, 진짜 위협은 인간의 경제적 행동임
결국 인류는 스스로에게 위협이 되는 존재임 -
Neal Stephenson의 『Anathem』을 떠올리게 됨
기업들이 인터넷에 의도적으로 쓰레기 데이터를 퍼뜨려, 자신들의 필터링 도구를 팔았다는 설정임
지금의 AI 데이터 포이즈닝 논의가 그와 크게 다르지 않게 느껴짐- 사실 이미 AI 기업들이 인터넷을 오염시켰음
- 이는 과거 SEO 스팸 산업이 검색엔진을 망친 것과 유사함
-
Geoffrey Hinton의 발언을 인용할 때, 사람들은 자신에게 유리한 부분만 취함
그는 AI를 실존적 위협으로 보지만, 그 전제 조건인 “AI의 자각 수준”에 대해서는
정작 그를 인용하는 사람들 대부분이 동의하지 않음