AI로 오염되지 않은 콘텐츠를 위한 Low-background Steel
(blog.jgc.org)- Low-background Steel 사이트는 AI 생성 콘텐츠로 오염되지 않은 자료를 모으는 역할을 함
- 이 프로젝트는 2022년 대규모 AI 콘텐츠 확산 이전에 생성된 텍스트, 이미지, 비디오 자료에 초점을 맞춤
- Wikipedia, Arctic Code Vault, Project Gutenberg 등 대표적인 기여처를 안내함
- 사이트 방문자가 새로운 비오염 자료를 제출할 수도 있음
- 핵실험 이전의 청정 금속 개념에서 창안된 이 발상은 신뢰성과 원본성 유지에 중점을 둠
소개
- Low-background Steel은 AI가 만든 콘텐츠로 오염되지 않은 온라인 리소스를 모으는 웹사이트임
- 이 사이트의 명칭은 핵실험 이전에 제작되어 방사능 오염이 없는 금속인 Low-background Steel(및 Lead)에서 착안함
- 핵실험(Trinity Test) 이전에 침몰한 선박에서 추출되는 금속이 방사능 오염이 거의 없어 귀하게 여겨짐
- 여기에서 따온 아이디어로, AI 생성물이 급증하기 이전에 생산된 순수한 디지털 콘텐츠를 보존하고 안내하려는 취지임
목표와 배경
- 2022년 대규모 AI 기반 생성 콘텐츠의 등장 이전 텍스트, 이미지, 동영상 등 다양한 원본 형태 자료 확보에 중점 둠
- 이러한 자료는 Wikipedia 전체 덤프, Arctic Code Vault, Project Gutenberg 등 신뢰할 수 있는 대표적 오픈 소스 데이터베이스를 포함함
- 사이트 이용자는 신규 오염되지 않은 자료를 제출 양식을 통해 직접 추가 가능함
사이트의 중요성
- AI 생성물이 급증하는 시대에, 원본성 보존과 신뢰할 수 있는 정보 확보가 중요해짐
- Low-background Steel은 정보 오염 걱정 없이 활용할 수 있는 청정 데이터 레퍼런스 제공을 목표로 함
기여 방법
- 누구나 새로운 Non-contaminated 콘텐츠 소스를 사이트 submit 기능으로 추가 제안 가능함
참고
- 사이트의 취지가 잘 반영된 위키피디아의 Low-background Steel 관련 설명이 연결되어 있음
- 해당 프로젝트는 2023년 3월 개설, 실질적으로 온라인 콘텐츠 보존을 위한 실험적 허브 역할을 수행 중임
Hacker News 의견
-
유니코드에 새로운 'plane'을 추가해 모든 유용한 문자들을 거울처럼 복제하고, 여기에 추가적인 상태 비트를 붙여 구분하는 발상에 흥미를 느낌
-
예를 들면 ‘인간이 직접 쓴 결과물’ 구역에는 AI가 생성한 텍스트를 사용하면 바로 처벌, ‘인간에게만 공개’ 영역에선 AI가 학습하거나 접근하는 것까지 금지, ‘AI가 생성함을 인정’ 범위에는 모든 AI 산출물이 반드시 해당 문자 범위로 처리하도록 규정하는 상상을 함
-
물론 이 문자들은 시각적으로 구분이 어렵고 소프트웨어를 거쳐야 구별할 수 있어 미묘한 채널 기능을 수행
-
텍스트를 복사·붙여넣기 해도 원본의 정보가 작은 문자 인코딩 차이로 함께 이동
-
거의 농담이긴 하지만 이런 시스템에 흥미를 느낌
-
마치 유기농 식품처럼, 100% 사람이 쓴 ‘오가닉’ 콘텐츠에 프리미엄 가치가 형성된다고 생각
- 하지만 식품 업계처럼 실제로 무엇이 허용되고 어디까지 오가닉인지 결정하는 게 악몽
- 인증은 신뢰 네트워크에 의존하고, 결국 AI 결과물이 오염된 채로도 더 높은 가격에 거래 가능
-
‘AI가 생성한 텍스트’ 기준이 불분명하다고 느껴 구체적 예시를 듦
-
- 학생이 직접 손글씨로 작성
-
- 온라인 백과사전을 참고했는데, 해당 백과사전이 내부적으로 AI를 사용
-
- AI에게 논문 구조, 요점, 결론을 짜달라고 해서 직접 작성
-
- 자신이 쓴 글을 AI로 맞춤법, 문장 수정, 스타일 조정만 맡김
-
- AI가 전체 글을 대필
-
- 여러 편을 직접 쓴 뒤, AI에게 최고 작품을 선정하게 함
- 첫 번째와 마지막은 명확하지만 나머지는 어디까지 AI 결과물로 볼 수 있을지 헷갈림
-
-
유니코드에는 원래 언어 영역을 표시하기 위한 태그 문자(visible tag character)가 존재하지만 더 높은 레벨 마크업(HMTL 등)에 밀려 지금은 폐기
- 이 문자는 보이지 않고, 커서 이동 시 여러 개가 한 문자처럼 처리
- ASCII와 대응되어 임의의 JSON이나 데이터 삽입 가능
- LLM이 생성한 영역을 표시하는 데 쓸 수 있는데, 자칫 숨겨진 데이터 또는 권장되지 않는 용도라서 불편함이 있을 수 있음
- 관련 링크: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
-
이 법이 시행되면 12밀리초 만에 인도에서 ‘타자 공장’이 생겨, 인간이 AI 결과물을 베껴서 데이터 세탁에 활용 예상
-
예를 들어 외국어로 글을 쓴 후 ChatGPT에게 영어로 번역 부탁하면 AI 생성물로 볼지 의문
- 손글씨 후 LLM으로 OCR 진행, 아주 상세한 개요를 AI에게 제공하면서 사실 검증도 엄격하게 거쳤다면 어떨지
- AI를 오로지 문법 체크나 과학적 표현 보정용으로만 썼다면 이 또한 AI 생성물인가
- 내 기준에선 모두 ‘아니오’라고 생각
-
-
AI 산출물은 본질적으로 평균 회귀 현상을 가진다고 주장
-
이런 내용은 인간이 직접 묻고 얻을 수 있는 정보라는 관점
-
모든 AI 생성물에 <AI generated content> 태그만 붙이면 되고, 그 외에는 공익보다는 공해에 더 가깝다고 봄
-
이 논리대로라면 뭔가를 쓸 필요 자체가 없는 결론
- 셰익스피어나 수학적 증명, 모든 소설·보도는 이미 가능한 단어의 조합일 뿐
- 뭔가가 단지 ‘생산 가능하다’는 점이 아닌, 특별한 목적·상황·독자를 위해 만들어졌다는 점에서 충분히 가치가 있다고 생각
-
이런 직관적 믿음이 언젠가는 약간의 실험적 증거도 있었으나
- 최근 잘 큐레이션된 AI 결과물이 혁신적인 돌파를 이뤄낸 점에서, 더 이상 해당 주장이 사실이 아님이 드러남
-
인간 전문가의 이름이 걸린 검증과 큐레이션 과정 자체도 큰 가치
- 실제로는 인터넷상의 대부분의 콘텐츠가 이미 전문가가 아닌 저임금 저질 퀄리티였는데, AI가 이를 더 악화시킨다고는 보지 않음
-
AI로 편집됐거나 스타일을 바꾼 글도 결국 사람이 쓴 것이라고 볼 수 있는지 궁금
- 나의 경우 노트에 음성으로 블로그 글을 불러 녹음하고, 이를 CGPT나 Claude로 톤·리듬을 잡아 다듬음
-
넌센스라고 생각
- 실제로 디프 리서치 툴 사용 경험이 있다면 인간도 무가치한 콘텐츠를 많이 만든다는 점을 이해하게 됨
- 유토피아적 오해에 빠지지 마길 바람
-
-
이 글에 사용된 용어들이 걱정을 과소평가하도록 절묘하게 선정됐다고 생각
-
핵실험 종료 이후 방사선 수준이 자연치에 거의 근접, 새로운 강저방사선강(stell) 필요성 감소, 새 강재도 방사능 신호가 충분히 약해 대부분 용도에 사용 가능
-
하나, ‘오염되지 않은’ 데이터가 꼭 필요하진 않다고 생각
- LLM 데이터가 일반 reddit 댓글보다 훨씬 낫다는 느낌
- archive.org, gutenberg 등으로도 ‘순수’ 데이터는 여전히 찾기 쉽다고 봄
- LLM 산출물이 결국 모든 곳에 스며들 것이기에 피할 수 없는 흐름
-
우리가 핵실험을 중단해서야말로 배경 방사선이 감소했다는 점은 사실임
-
-
이 사안이 대중이 예상하는 만큼 심각하지 않을 것으로 봄
-
장기적으로 AI는 실제 경험에서 배우게 되어, 무한한 비저작물 학습 데이터가 가능하고 AI 오염 문제도 회피할 수 있다고 주장
-
현실에서는 AI의 환각성(hallucinations/사실 왜곡)이 인용돼 진실처럼 굳어지는 경향
- 예: “MS-DOS용 connect four 내장 생산성 프로그램이 뭐였나?”라는 질문을 실제 AI에게 여러 번 해봤을 때, 매번 다른, 그러나 모두 틀린 답만 출력
- 해당 오류 정보가 다시 웹에 인용되고, AI가 그 잘못된 정보를 학습하게 되는 순환 고리 발생
- 이런 상황에서는 진실을 알기 어려움
-
실제 경험 데이터(예: 차량 수리)는 생성 자체가 비용과 위험이 큼
- 인간整비사처럼 AI도 메뉴얼과 명시적 교육과정을 시작점으로 삼아야 함
- 만약 오로지 실제 수행 데이터로만 학습한다면, 시행착오로 차량을 망가뜨리게 될 것이고, 그 과정에서도 인간이 개입해야 함
- 오프폴리시 강화학습(RL)이라도 그 데이터 역시 이전 세대 모델(즉 AI가 만든 것)에서 왔을 수 있기에 완전히 ‘AI 오염 무결’로 볼 수 없음
- 그렇기에 실제-경험만으로는 공급 한계와 비용, AI 오염 문제를 완전히 해결할 수 없음
-
유튜브에 실제 자동차 수리 경험 데이터가 넘쳐나지만, 저작권 이슈가 있음
- AI 기업이 해당 콘텐츠를 쓰기 전에 저작권 라이센스를 받아야 하는지 논란
-
장기적으로 AGI가 필요하다고 보는지 의문
- AGI가 나온 뒤에는 스팸 콘텐츠도 질이 좋아진다는 논조에 의문
- 관련 xkcd 참고: https://xkcd.com/810/
-
예측컨대, 일반 지능을 갖춘 휴머노이드 로봇이 등장하기 전에는 자동차를 고치는 AI 시스템은 현실화되지 않을 것
- 5성급 호텔에서 AI 메이드가 등장하는 일 또한 마찬가지
- 그래서 언어 데이터베이스 오염 문제도 시간이 지나 해결된다는 관점은 다소 비현실적이라고 봄
-
-
현재로서는 ‘AI 오염’이 실제로 AI 훈련에 문제를 일으킨다는 증거가 없음
-
2022년 이전 공공 데이터로 훈련한 AI가 2022년 이후 데이터로 훈련한 AI에 비해 눈에 띄는 성능 우위를 보이지 않음
-
심지어 최근 데이터가 약간 더 잘 나오는 경우도 있음
-
‘low background steel’ 비유에 담긴 사고방식은 바로, 합성 데이터로 거듭 학습하면 AI 모델이 완전히 무의미해지는 ‘모델 붕괴(model collapse)’가 온다는 것
- 실제로는 그 현상도 없었고, AI 회사들이 내부적으로 AI 데이터만 분리해서 걸러내는 필터도 운용하지 않는 듯
- 오히려 인간이 AI 데이터에 과도하게 노출될 경우 모델 붕괴가 인간에게 나타날 수 있다고 봄
- 이는 어디까지나 내 경험과 직감임
-
위 주장은 여러 이유로 합리적이지 않음
-
- 2022년 이후 LLM 훈련 기법이 월등히 개선되어 데이터 내 AI '찌꺼기'의 부정적 영향이 드러날 정도로 크지 않아 보일 뿐
-
- 성능 평가는 모호하고, 동세대 모델(Gemini 2.5 vs Claude 4 등)간의 미세한 차이로만 드러남
- 이런 작은 효과는 데이터로 입증이 어려우며, 그럴수록 원칙적 접근이 중요
- 원칙적으로는 AI 생성물 학습을 피해가는 것이 바람직
-
-
아직 본격적으로 AI 오염 ‘찌꺼기’가 쏟아지지 않았으며, 앞으로 급격히 늘어날 것이라 기대
-
-
일부는 AI 콘텐츠에 그리 거부감 없으며, low-background steel 비유를 굉장히 뛰어난 착상이라 평가
-
나 역시 AI 콘텐츠에 거부감이 크지 않으며, 실제로 관련 사이트를 만들기도 했음
- 목적은 확실히 인간이 만든 것으로 알려진 자료를 기록하는 것임
-
개인적으로 AI 포비아라기보다는, AI가 자신의 결과물을 또 학습하는 현상을 막으려는 의도가 큼
- ‘pre-AI’ 시대의 콘텐츠는 더이상 새로 생성 불가한, 그 자체로 늘어나는 희소성
- 만일 2015년 즈음 모든 데이터에 암호학적 타임스탬프를 찍어 뒀다면 더 좋았겠지만, 지금이라도 남은 것을 아껴야 할 시점임
-
-
오늘의 내 생각이 신기할 정도로 예지력을 보인 것 같음
-
이미 적어도 1년 전, 혹은 그보다 오래 전 hackernews에서 이 사례를 본 적 있음
-
ChatGPT 출시 이후 흔히 사용된 비유였음
-
AI ‘오염’ 없는 콘텐츠라는 프레이밍도 이미 접했으나, ‘low background steel’을 이에 빗대어 사용한 건 꽤 참신한 샷이라고 생각
-
내 생각은 다름
- 우리가 콘텐츠와 합성데이터에 주석을 붙이고, 기계가 이를 활용해 미래 산출물이 점점 좋아진다고 믿음
- LLM만으로는 그 효과가 두드러지지 않더라도, 이미지·비디오 모델에서는 명확함
- 가장 훌륭한 시각적 산출물만을 엄선하면서 결과가 조금씩 향상되고, 이 과정에서 ‘기호에 맞는 큐레이션’도 큰 역할
- 유전학 및 생물학에서 다양한 생태적지 니치에 적용되는 것과 마찬가지로, 우리는 합성 머신으로 게임의 룰을 빠르게 진화시키고 있음
-
low-background analogy의 흥미로움에 공감
-
이 비유가 정말 설득력 있는지 의문
-
low-background steel은 실제로 새로 만드는 게 거의 불가능에 가까운데, AI-free 콘텐츠는 그냥 AI 안 쓰면 되어 난도 낮음
-
사실상 어떤 결과물이 AI-free임을 객관적으로 증명하는 것이 불가능에 가깝기에, 본인 외에는 아무도 확신 못함
-
누가, 어떤 이유로, 어떤 돈을 들여 AI-free 콘텐츠를 만들지 물음
-
클릭베이트성 제목일 뿐이라고 봄
-
-
이 사이트명이 Y combinator에서 온 점에 착안해, 함수의 고정점(fixed point)을 찾는 것을 inference 모델의 요구사항으로 꼽음
- 한 콘텐츠가 스스로를 변환하고 그 결과를 다시 입력으로 삼으며, 본질적 패턴을 계속 추출해낼 것이라는 낙관적 태도
-
AI 편향된 데이터 생성이 늘더라도, 원본 인간 콘텐츠와 파생콘텐츠, 그리고 그 파생콘텐츠의 파생콘텐츠 등 여러 단계가 섞여 훈련하더라도 본질적 특징들은 계속 추출 가능하리라 기대