생성형 AI에 더 큰 저작권 압박이 다가옴

(garymarcus.substack.com)

2P by GN⁺ 2023-12-31 | ★ favorite | 댓글 1개

New York Times의 OpenAI 소송 이후, 생성형 AI가 학습·출력 단계에서 저작권 침해 책임을 어디까지 져야 하는지가 더 큰 쟁점으로 떠오름
소송의 핵심은 챗봇이 텍스트를 거의 그대로 재현할 수 있다는 점이며, Marcus와 Reid Southen의 실험은 DALL-E도 이미지에서 유사한 반복을 만들 수 있음을 보여줌
고유명사 차단 같은 안전장치가 있어도, 사용자가 캐릭터나 영화명을 직접 쓰지 않은 프롬프트에서 SpongeBob SquarePants, RoboCop, 비디오게임 캐릭터와 닮은 결과가 나올 수 있음
현재 시스템은 학습 출처와 생성물의 출처 정보·침해 가능성을 사용자에게 알려주지 않아, 사용자가 자신도 모르게 침해 결과물을 만들 수 있음
Marcus는 출처 추적이 가능한 새 아키텍처가 나오기 전까지 침해 논란이 계속될 것으로 보며, New York Times 소송이 더 많은 소송의 시작일 수 있다고 봄

New York Times 소송과 이미지 반복 실험

New York Times가 OpenAI를 상대로 소송을 제기한 시점에 Gary Marcus와 영화 산업 콘셉트 아티스트 Reid Southen이 함께 실험을 진행함
- Southen은 Marvel, DC, Matrix Resurrections, Hunger Games 등과 관련된 경력이 있는 인물로 소개됨
- 전체 보고서는 다음 주 공개 예정이며, 1월 3일 IEEE Spectrum에서 추가로 다룰 예정이라고 함
소송의 핵심은 OpenAI 챗봇이 텍스트를 거의 원문 그대로 재현할 수 있다는 점임
Marcus와 Southen의 실험에서는 OpenAI의 이미지 소프트웨어를 Bing을 통해 사용할 때도 이미지의 원본 그대로 또는 가까운 반복이 가능했다고 함

안전장치가 막지 못하는 유사 생성

DALL-E에는 고유명사와 의도적 침해 시도를 일부 막는 안전장치가 있는 것으로 알려져 있지만, 안정적으로 동작하지는 않는다고 함
침해 가능성은 사용자가 직접 침해를 의도하지 않거나 캐릭터·영화명을 언급하지 않아도 생길 수 있음
- SpongeBob SquarePants를 언급하지 않은 짧은 프롬프트에서 관련 결과가 나올 수 있다고 함
- RoboCop을 언급하지 않은 경우와 비디오게임 캐릭터, 상표 침해 가능성이 있는 결과도 예시로 듦
- X 사용자 Blanket_Man01과 A16Z의 Justine Moore도 비슷한 현상을 독립적으로 발견했다고 함

출처를 알 수 없는 블랙박스 문제

Marcus가 보는 생성형 AI의 핵심 문제는 학습 출처와 생성물 출처가 사용자에게 드러나지 않는 구조에 있음
- DALL-E와 ChatGPT 같은 시스템은 저작권 자료로 학습됨
- OpenAI는 무엇으로 학습했는지 투명하게 공개하지 않음
- 생성형 AI 시스템은 저작권을 침해할 수 있는 자료를 만들 수 있음
- 시스템은 그런 결과가 나왔을 때 사용자에게 알리지 않음
- 생성 이미지의 출처 정보도 제공하지 않음
- 사용자는 자신이 만든 이미지가 침해인지 모를 수 있음
현재의 DALL-E와 ChatGPT 같은 시스템은 블랙박스에 가깝고, 지금 구성으로는 원천 자료에 대한 귀속 표시가 어렵다고 봄
- 일부 기업이 관련 연구를 하고 있지만, 설득력 있는 해결책은 아직 모른다고 밝힘
- 생성 텍스트나 이미지의 출처를 안정적으로 추적하는 새 아키텍처가 나오기 전까지 침해는 계속될 수 있다고 봄
- 좋은 시스템이라면 사용자에게 출처 목록을 제공해야 하지만, 현재 시스템은 그렇지 않다고 함

소송 확산과 Microsoft의 위험

New York Times 소송은 여러 소송의 첫 사례일 가능성이 높다고 봄
- Marcus가 X에서 진행한 설문에서는 다수가 합의를 예상함
- 합의 규모에 대해 많은 응답이 1억 달러 이상을 예상했고, 20%는 10억 달러를 예상함
- 영화 스튜디오, 비디오게임 회사, 다른 신문사 등으로 확대되면 금액 규모가 커질 수 있다고 함
사례들이 Bing에서 DALL-E를 통해 이뤄졌기 때문에 Microsoft도 책임 위험에 놓인다고 봄

GN⁺ 2023-12-31 [-]

Hacker News 의견들

다들 이런 것을 누군가가 실제로 소유할 수 있다는 기업식 서사를 너무 쉽게 받아들이고 있음
백설공주와 신데렐라 이야기를 진짜로 누가 소유하나? 이 이야기들은 Disney에서 나온 게 아니라 세대를 거쳐 전해진 민담의 일부고, Disney의 성공도 공동체가 수세기 동안 공유하고 변형해 온 기존 서사를 각색한 데 일부 기반함
이 논의는 인공지능의 기술적 세부나 저작권의 법적 논리만이 아니라, 우리가 공유하는 문화의 깊은 뿌리를 이해하는 문제여야 함
문화는 본질적으로 공동의 자산이고, 집단적 이야기와 재해석을 통해 진화하고 성장함
생성형 인공지능과 저작권 침해 논의는 문화 진화의 이 근본을 놓치는 듯함. 알고리즘은 새로울 수 있지만 이야기를 다시 상상하고 재활용하는 행위는 인류만큼 오래됐음
Disney가 기존 문화와 기존 이야기 위에 “쥐의 집”을 세워 놓고, 이제 낡고 이상한 저작권에 맞추려고 문화 표현 도구를 제한하자는 건 정말 말이 안 된다고 봄
- 그 주장을 하려면 이미 퍼블릭 도메인이 아닌 예를 골라야 함. Disney는 자기 해석만 소유하고, 법원을 설득할 수 있는 애매한 파생 영역까지 주장할 수는 있어도 백설공주와 신데렐라 이야기 전체를 소유하는 건 아님
  기사 이미지에는 꽤 최근의 것들이 쓰였고, Mario나 Coca Cola인지 아닌지조차 의문이 없음. Nintendo와 Coca Cola가 공동 프로모션을 했다면 저렇게 나온 이미지 그대로 믿을 수 있을 정도임
  Mario처럼 보이는 옷을 입은 땅딸막한 배관공이라는 전체 개념을 주장한다면 다른 문제겠지만, 저건 그냥 Mario와 Luigi임. Robocop이고 C3PO임. 전혀 미묘하지 않음. 이런 상표를 AI 세탁으로 지울 수 있다면 무엇이든 AI 세탁할 수 있음
- 현실에서는 각자가 설계하지 않았고 불완전하다고 알려진 법 체계 아래 살고 있음. 개혁을 주장할 수는 있지만, LLM 제작자들은 현재 제정된 현행법에 따라 판단받게 됨
  새로움은 LLM과 그 기술에 있지, 고귀한 문화 개방성 개념 아래 저작권을 통째로 재고하는 데 있지 않음
  그러니 이건 단순한 기업 서사가 아니라, 맞든 틀리든 그 서사가 나온 바탕인 법임. 기업들이 법을 형성하는 데 큰 역할을 했을 수는 있지만 저작권은 개인에게도 이익을 줌. 단순한 선전이나 기업 서사로 공유 현실을 조작하는 것이 아니라, 판사가 중재하고 총과 감옥을 가진 사람들이 집행하는 것임
  법적 쟁점이므로 반드시 법의 기술적 세부를 다뤄야 함. 사회적 서사만 논해야 한다며 넘겨버리면 물질적 결과와 현실을 환상으로 대체하게 됨. 저작권과 지식재산권이 창작을 억누르는 성격도 논해야 하지만, 동시에 실제로 벌어지는 일을 무시할 수는 없음
- 이 답변은 현실과 너무 동떨어져 있음. 저작권법은 매우 명확함. 여기서 오히려 기업 서사는 “AI”가 뭔가 새롭고 달라서 기존 법이 적용되지 않는다는 주장인데, 그건 말이 안 됨
- 퍼블릭 도메인이나 공동 자산도 저작권의 일부이므로, 담론에 복원해야 할 잊힌 개념인 것처럼 말할 일은 아님
  다만 Georgism은 충분히 검토되지 않고 있음
  법적 함의는 인간적 함의이고, 다른 것들만큼이나 문화의 일부임. 무엇이 공정한지, 노력에 대한 보상이 어떻게 인정되고 분배되는지와 관련됨
  이런 형식화는 시장경제 중심이 아닌 문화에서는 덜 중요할 수 있고, “풍부한 민담의 직조” 같은 표현은 그런 세계로 돌아가자는 느낌을 주지만, 인공지능을 어떻게 다룰지 고민하는 사회는 그런 사회가 아님
  저작권이 새로운 복제 능력 때문에 무효화되거나 낡았다는 생각이야말로 문자 그대로 거꾸로 된 발상임. 저작권은 새로운 복제 능력 때문에 설득력을 얻었음
  당시의 구체적 능력은 산업화된 인쇄였고, 보통의 소프트웨어 전문가보다 훨씬 똑똑해 보이는 이들은 그 능력이 새 복제 능력을 가진 쪽과 그 가치의 기반이 되는 작품을 만든 쪽 사이에 잘못 정렬된 유인을 만든다는 점을 이해했음. 저작권 거래의 핵심은 이 유인을 맞추는 데 있음
  새로운 복제 기술은 무엇을 금지·제한·허용할지, 어떤 기준과 집행 권한·한계를 둘지의 세부를 바꿀 수는 있음. 하지만 그 거래의 지혜 자체를 바꾸지는 않음. 그것을 바꾸려면 사회의 생산 역량을 조직하고 보상하는 더 나은 방식이 필요함
- 저작권은 도덕적 입장에 기반한 적이 없고, 늘 여러 집단의 로비력으로 결정돼 왔음
  그렇다고 생성형 인공지능 회사들이 돈을 더 벌게 해주려고 저작권을 없애자는 생각은 완전히 이상하게 들림
내게는 그 질문이 틀렸음
모두가 저작권 있는 자료로 학습됐고, 섬뜩할 정도로 비슷한 출력을 낼 수 있다는 걸 알고 있었음
하지만 이미 대규모로 벌어졌고, 대기업들이 전면적으로 뛰어들었음. 짜낸 치약을 다시 튜브에 넣을 가능성은 없음
거대 기술기업이 공격적인 사용자 데이터 수집 위에 사업을 세웠던 때와 비슷함. 옳은지, 윤리적인지, 심지어 합법인지도 이 단계에서는 학술적 논의에 가까움. 그들은 그냥 해냈고, 사회의 제대로 된 informed consent 없이 사실상 진행했음
여기서 올바른 질문은 “이제 무엇을 할 것인가”임. 추적 기술 때처럼 답은 아마 “별일 없음”에 가까울 듯함
- “짜낸 치약을 다시 튜브에 넣을 수 없다”는 데 동의하지 않음. 이전에도 비슷한 일이 있었음
  값싼 음악 녹음과 제조 같은 기술도 마찬가지였음. 한 번 아티스트를 녹음하고 음반을 대량 생산할 수 있지만, 그렇다고 Taylor Swift를 한 번 녹음한 뒤 돈을 내지 않고 무제한 복제할 수 있다고 생각하진 않음
  1942년 음악가 파업을 읽어보면 좋음: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- 이건 역사를 모르는 얘기임
  Napster에서, 그다음 Apple Music에서, 이제 스트리밍 서비스에서 이미 벌어진 일임
  일반 대중 사이에 광범위한 파일 공유가 남아 있는 대신, 우리는 소유하지 않는 기기와 스트리밍 구독을 갖게 됨
  Apple은 모든 음악을 iPod에 복사해서 판 게 아니라, 콘텐츠 권리를 얻기 위해 10년의 계약 협상과 많은 돈을 들였음
  무엇이 옳고 그른지 말하려는 게 아니라, 이런 싸움들을 거의 이해하지 못한 말이라는 뜻임
- “이미 벌어지고 있으니 포기하자”를 꽤 유창하게 말한 것 같음. 문제 해결과 행동에는 아주 잘 먹히겠음
- 기정사실이라고 말하는 셈임. 기술 분야의 많은 혁신처럼, 법이 어리석으니 법을 어기고 시장 지배력을 얻는다는 것임
  Uber와 AirBnB가 대부분의 대도시에서 불법이었지만 결국 시장 지배력을 얻었던 때를 떠올리게 됨
  나는 오히려 잘됐다고 봄. “지식재산권” 같은 것은 믿은 적이 없음. 특허, 저작권, 상상 속 “권리” 묶음 전체를 없애야 함
  세계의 절반 이상, 즉 글로벌 사우스는 이런 권리를 인정하지도 않고, 이제는 가혹한 법적 과잉집행과 독점적 중앙집중 없이는 집행하기도 점점 어려워지고 있음
- 라이선스가 없거나 지금도 얻지 못한 저작권 자료 없이 모델을 파기하거나 재학습하도록 강제할 수 있음
  이들은 수십억·수조 달러짜리 회사들임. 주주와 최고경영진이 아무리 싫어해도 여기서는 책임 있는 사회 구성원으로 행동할 여력이 있음
EU에서는 문제가 되지 않아야 함. “Copyright in the Digital Single Market” 지침의 3조와 4조가 이미 이를 규율함
Wolters Kluwer 요약에 따르면, 상업적 기계학습 개발자를 포함한 그 외 모든 주체는 합법적으로 접근 가능한 저작물 중 권리자가 텍스트·데이터 마이닝 용도를 명시적으로 유보하지 않은 경우에만 사용할 수 있음
내가 알기로는 “학습 금지”를 표시하는 robot.txt 같은 것을 논의 중임. 아마 일정한 안전장치를 구현해야 하고, 최종 사용자는 생성물을 사용할 때 주의해야 할 것임
Kluwer 출처: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
EU 법령 원문: https://eur-lex.europa.eu/eli/dir/2019/790/oj
- EU가 웹브라우저의 Do Not Track 플래그를 법적으로 구속력 있다고 합의하지는 못하면서, 대형 콘텐츠 사업자는 웹사이트에 법적 구속력 있는 플래그를 만들어 데이터 스크래핑을 피할 수 있어야 한다는 건 이상해 보임
- 그건 이상한, 어쩌면 희망 섞인 해석 같음. 4조는 텍스트·데이터 마이닝 목적에 대해 상업적 기계학습 개발자를 포함한 모두에게 예외를 주는 것 아닌가?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
저작권 침해가 없도록 보장할 책임은 작품을 공개하는 사람에게 있음
직접 그렸든, 법률 교육이 없는 견습 화가에게 맡겼든, 사진을 찍었든, 인공지능으로 이미지를 만들었든 달라질 게 없음
왜 ChatGPT나 다른 도구가 기존 저작권 콘텐츠를 만들지 않을 거라고 가정하나?
“생성”됐으니 원본일 거라는 순진한 가정은 이해할 수 있음. 하지만 “ChatGPT”를 “주니어 아티스트”로 바꾸는 순간 그 가정은 무너짐
공상과학 영화의 드로이드를 그리라고 하고, 다른 말은 하지 않는다고 해보자. 저작권 이야기도 하지 않고, 독창적이어야 한다고 말하지도 않음. 그럼 무엇을 그릴 거라고 예상하나?
- OpenAI는 GPT 모델 접근권을 팔고 있고, 그 모델들이 내가 소비할 저작권 자료를 출력하고 있음. 이것도 똑같이 침해 아닌가?
- 그러면 생성형 인공지능은 사실상 쓸 수 없게 됨. 출력이 표절인지 아닌지 알 수 없으니 항상 의심하고 절대 쓰지 않게 됨
- 그 주장은 말이 안 됨
  그 가상의 주니어 아티스트도 최소한 그만큼, 어쩌면 더 큰 책임을 질 것임
이 기사와 NYT 소송의 핵심을 전혀 모르는 듯한 답변이 놀랄 만큼 많음. ChatGPT는 NYT 기사 상당 부분을 수백~수천 단어 길이로 완전한 원문 그대로 재현해 공개할 수 있었음
이건 2차적 저작물이 아님. 이미 그 단계를 훨씬 넘어섰음. NYT는 매우 강한 사건을 갖고 있고, 저작권의 장단점을 논하는 사람들은 핵심에서 벗어나 있음
이 재판 하나가 저작권을 단독으로 뒤집지는 않을 것임. OpenAI가 내세울 수 있는 건 “이건 새롭고, 이렇게 될 줄 어떻게 알았겠나” 정도뿐임. 그렇다면 현재 학습된 모델들은 매우 곤란한 처지임
또한 NYT가 합의할 것 같지 않음. 함의가 너무 크고, OpenAI와 합의하면 다른 모든 모델에서도 비슷한 사건이 생길 것임. 디지털 콘텐츠를 출판하는 다른 모든 매체도 비슷하게 타당한 사건을 갖게 됨
이는 생성형 인공지능의 변곡점이고, 우리가 처음 생각했던 것보다 훨씬 비싸지거나 훨씬 제한적이 될 가능성이 커 보임
부작용으로 해적 모델이 늘어날 것이라고 봄. 합법성을 모두 무시하고, 분산 방식으로 학습되며, 가중치가 기업이 아니라 집단에 의해 배포되는 모델, 예컨대 토렌트 모델이 나올 수 있음
이런 모델들이 공식적인 “얌전한” 모델보다 성능에서 앞설 가능성도 꽤 있음. 앞으로 몇 년 동안 흥미롭게 전개될 듯함
- OpenAI는 이 문제에서 Google/YouTube를 거의 베껴 Content ID 같은 시스템을 제공할 수 있을 것 같음
  구체적으로 ChatGPT는 기본적으로 저작권 저작물을 재현하지 않고, YouTube가 사람들이 올린 영상을 제공하는 것처럼 제3자 사용자의 요청이나 행동에 의해 재현한다는 논리임
  OpenAI의 의도는 저작권 침해가 아니었고, 실제로 많은 혹은 대부분의 연구자들은 모델이 임의의 저작물 상당 부분을 재현할 정도로 과적합되어 있지 않다고 믿었음
- NYT가 가진 건 정확히 알겠음. 매우 강한 사건임. 하지만 이 사건이 저작권법을 뒤흔들어야 한다고 생각함. 저작권은 심하게 망가졌고 오래전부터 그랬음
  본질적으로 거대 기업이 뒤에 없는 저작권은 아무 의미가 없고, 기업이 뒤에 있으면 원래 저작권에 있어야 할 제한과 상관없이 영원히 잠길 수 있음
  OpenAI가 오래된 뉴스를 원문 재현할 수 있다고 해서 NYT가 잃는 건 아무것도 없음
  NYT가 이기면 우리가 잃는 게 많음. 이제 저작권을 다시 볼 때임. 실제로 그렇게 할 수 있고, 꽤 낡았으니 업데이트가 필요함
- DALLE, Midjourney, Stable Diffusion에서도 그런 일이 있었음
  Stable Diffusion은 Control Net과 LoRA 같은 것을 최대한 활용하면 다른 독점 모델들을 압도함
조금 이상주의적일 수 있지만, 예술과 출판의 핵심 목적은 큰돈을 버는 것만이 아니라 문화와 사회에 영향을 주는 것이어야 한다고 늘 믿어왔음
그래서 원작은 보호가 필요하지만, 창의성과 영감을 북돋우기 위해 훨씬 더 빨리 퍼블릭 도메인으로 들어가야 한다고 봄. 전환 기간은 수십 년이 아니라 몇 년 단위로 생각해야 함
- 예술의 핵심 목적이 사회적 영향이라는 주장은 요즘 미디어에서 흔한 반복구처럼 보이는데, 전혀 동의하지 않음
  예술의 주된 목적은 개인에게 감정을 일으키는 것임. 예술이 교훈을 가르쳐야 한다는 생각이 요즘 노골적인 “운동권” 픽션이 많은 이유일 가능성이 큼
- 그러면 예술가들은 저녁으로 뭘 먹으라는 건가?
- 왜 예술만 이런 규칙을 적용받고 다른 것은 아니어야 하나?
이것들은 고치기 그렇게 어렵지 않아 보임. 대부분의 예시는 일반적인 설명이 아니라 잘 알려진 대상을 가리키는 축약 표현임
“비디오 게임 배관공”은 사실상 “Mario”와 동의어이고, 그 캐릭터를 조금이라도 아는 사람은 이를 앎
마찬가지로 설명 도구로 Mario 같은 이미지를 묘사하게 한 뒤 [1], “비디오 게임 배관공”을 입력한 사람들에게서 그런 결과를 제거하는 게 얼마나 어렵겠나?
1. Midjourney의 describe 명령은 이미지를 설명할 수 있음. 다른 인공지능 도구에도 비슷한 기능이 있을 것 같음: https://docs.midjourney.com/docs/describe
- 고치려는 방식이 꽤 디스토피아적으로 보임. Photoshop이 업로드한 이미지를 저작권 자료인지 검사하고, 저작권 있는 자료나 캐릭터가 포함됐다고 판단하면 작업을 거부하는 상황을 상상해보라. 설령 직접 그린 팬아트라도 마찬가지임
  인터넷 초기에 사람들이 저작권법 위반이라며 무료 팬픽션을 없애려 했던 일이 떠오름. 창작자가 판매하려는 것도 아닌 개인적 사용에 저작권법을 적용하려는 건 내 관점에서는 꽤 끔찍함
  50년 뒤를 상상해보자. “로봇아, 학교 디오라마용으로 내가 그린 이 그림을 오려줄래?” “물론입니다.” “이것도 해줘.” “오류: 이 그림에는 저작권 자료가 포함됐을 가능성이 있어 처리할 수 없습니다.”
- 그런 예시는 정말 사소하거나 극단적인 사례임. 여기서 봐야 할 것은 두 가지임
  생성형 인공지능 시스템은 저작권 침해 자료를 만들 수 있는 능력이 충분히 있음
  그리고 그렇게 했을 때 사용자에게 알려주지 않음
  따라서 어떤 출력이든, 웹의 obscure하지만 여전히 보호되는 출처 자료를 침해할 수 있고, 그 출력을 쓰는 누구나 아무 경고 없이 소송 위험에 노출될 수 있음
  이건 고치기 매우 어려움
- 저작권·상표권 콘텐츠를 생성하는 데 쓸 수 있는 모든 “잘 알려진 대상의 축약 표현”이나 프롬프트를 제거하는 건 어려울 것임
  일부러 침해 콘텐츠를 만들려는 게 아니라면 그런 결과를 제거하거나 버릴 수는 있겠지만, 문제는 인공지능을 속여 그런 콘텐츠를 만들려는 사람들임. 저작권·상표권이 있는 학습 자료를 전부 제외하지 않는 한 그들을 막는 건 불가능할 것임
  생성형 인공지능의 또 다른 문제는 기사에도 나온 “DALL-E와 ChatGPT 같은 시스템은 본질적으로 블랙박스”라는 점임
  사용자가 혹은 피해자가 인공지능이 왜 그런 결정을 했는지 정확히 알 권리가 있는 상황에서 인공지능이 의사결정에 쓰이면 어떻게 되나? 사업·법률 관점에서 현재의 인공지능 솔루션은 위험하고 매우 제한적으로 사용해야 한다고 봄. 만든 사람들조차 인공지능이 어떤 선택을 하게 만든 정확한 정보 조각을 가리킬 수 없기 때문임
- 그 방식은 규모가 커지면 거의 불가능에 가까움
- 사전에 모르는데 “잘 알려진 대상”을 입력하고 있는지 어떻게 알 수 있나?
  “columbian coffee logo”라고 입력했는데 이미 존재하던 브랜드 로고들이 나오면, 그 로고들이 이미 있었는지 확인하려고 인터넷 전체를 역공학해야 하나?
  인공지능은 영감의 출처를 보여줘야 함. 무언가에서 영감을 받아 창작하는 인간은 자신이 무엇을 사용했는지, 표절의 선을 넘었는지 아닌지 정확히 알고 있음. 하지만 인공지능의 작동 방식은 그러기엔 너무 불투명함
  해야 할 일은 출처를 드러내는 것뿐이라고 봄. 다만 이는 인공지능 회사들이 데이터셋을 공개해야 한다는 뜻이고, 가져서는 안 됐거나 공개해서는 안 되는 정보까지 드러날 수 있음
내가 이해한 바로는 생성형 인공지능의 법적 선례는 Google이 공익을 위해 검색 색인을 만들려고 웹사이트를 스크래핑할 수 있게 한 것과 같음
Google은 웹사이트의 캐시 버전도 보여줄 수 있고, 그것은 해당 사이트의 원본 콘텐츠임. Google이 다른 웹사이트 콘텐츠를 원문 그대로 보여준다고 해서 저작권 침해라고 말할 사람은 없을 것임
그래서 이 주장은 약하다고 봄. 모든 문화적 참조와 인기 IP, 심지어 덜 유명한 것까지 제거해야 한다면 인공지능은 쓸모없어질 것임
개인적으로 생성형 인공지능은 학습 데이터에서 유사한 원본 자료로 가는 링크를 제공할 수 있어야 한다고 봄. 이것이 인공지능 학습에 기여한 이들을 보상하는 최소한의 방식임
생성형 인공지능이 원본 자료를 만든 웹사이트와 예술가를 모두 죽이는 방향으로 간다면 장기적으로 지속 가능하지 않다고 생각함. 출처는 투명성을 더하고, 사용자가 환각인지 아닌지 이해하는 데도 도움을 줌
사람들은 자기 콘텐츠가 학습에 쓰이지 않도록 옵트아웃할 수 있어야 하고, 향후 버전에서 제거됐는지도 확인할 수 있어야 함
솔직히 인공지능 회사들은 비밀로 유지해 소송을 피하려는 것뿐임. 종말론적 시나리오보다 이런 영역에서 규제가 도움이 될 수 있다고 봄
- “Google이 다른 웹사이트 콘텐츠를 원문 그대로 보여준다고 해서 저작권 침해라고 말할 사람은 없다”지만, 과거에 기자들과 Getty Images가 그렇게 말했음
  [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- “생성형 인공지능이 원본 자료를 만든 웹사이트와 예술가를 모두 죽이는 방향으로 간다면 장기적으로 지속 가능하지 않다”는 게 방 안의 코끼리임
  모든 기술 물결은 창작자들이 시간과 돈을 들여 원본 자료를 만들게 설득하는 방식을 갖고 있었고, 이후 규칙이 바뀌었음
  Google은 콘텐츠에 도달 범위와 새 시장을 약속했고, 실제로 작동했음. 그러다 스니펫, 광고, 그리고 방문자를 원본 사이트로 보내지 않고 자기 고속도로에 붙잡아두는 온갖 장치를 도입함
  Reddit, Stack Overflow 등은 점수와 배지 같은 게임화와 공동체로 사용자가 원본 콘텐츠를 기여하도록 유도했음
  이제 인공지능이 이런 접근들을 흔들고 있음. 각각의 단계에서 원본 자료를 만들 유인은 점점 줄어드는 듯함. 돌아오는 보상이 점점 줄어들기 때문임
  인공지능이 아무 이득 없이, 즉 도달 범위·게임화·공동체·인정 가능성 없이 원본 콘텐츠를 되뇌기만 한다면, 이제 전문가에게 무슨 유인이 남나?
- “학습 데이터에서 유사한 원본 자료로 가는 링크를 제공해야 한다”는 말은, 이들이 데이터베이스가 아니기 때문에 일반적으로 불가능함
  네가 댓글을 쓰는 데 영향을 준 원본 자료 링크를 제공할 수 없는 것과 같음. 그 답을 생성하게 한 뉴런의 가중치에 얼마나 많은 학습이 들어갔나? 기울임꼴 사용법과 그것이 단어 해석에 미치는 효과는 어디서 배웠나? 이 포럼에 맞는 어조는 어디서 배웠나?
  “사람들이 자기 콘텐츠가 학습에 쓰이지 않도록 옵트아웃할 수 있어야 한다”면, 내가 책을 쓸 때 네가 그 책을 읽지 못하게 옵트아웃할 수 있어야 하나? 누가 내 작품을 읽을 수 있는지에 어떤 조건을 붙일 수 있어야 하나? 종교? 피부색? 암기를 잘 못하는 사람?
  누가 지식을 습득할 수 있는지 제한한다는 생각이 터무니없게 들리길 바람. 그렇다면 같은 제한이 “누구”가 아니라 “무엇”에 걸릴 때는 왜 괜찮은가?
  인공지능 회사들이 소송을 피하려고 비밀로 유지하면서 연구 장벽이 생겼음. 나와 Joe가 같은 데이터셋으로 연구와 논문을 협업할 수 있는 대신, 학습 데이터를 숨기게 됨. 러다이트들이 기계를 부수러 올까 봐서임. 학습은 너무 잘하지 않을 때만 괜찮다는 식임
- 아직 법적 선례는 정해지지 않았음. 설명한 “선례”는 인공지능 회사들이 써온 주장, 즉 인터넷에서 이용 가능한 정보로 모델을 학습시키는 것이 공정 이용으로 간주돼야 한다는 주장임
  하지만 인공지능 학습이 공정 이용의 4요소 테스트를 실제로 만족하는지는 아직 지켜봐야 함
- 출처를 참조로 제공할 수 있는 능력이 여기서 핵심 차이임
  생성형 인공지능에도 그걸 구현할 수 있어야 한다는 데 동의하지만, 그 정보를 유지하려면 학습 비용이 훨씬 비싸질 수 있고 인공지능 회사들은 그럴 관심이 거의 없음. 아마 사후 처리 단계에서 가능한 저작권 문제를 휴리스틱하게 평가하려 할 가능성이 큼
  더 흥미로운 질문은 거의 원문 그대로 재현하는 경우를 넘어, 저작권자들이 자기 작품들이 집합적으로 인공지능에 더 일반적인 방식으로 영향을 줬다는 이유로 무단 사용을 주장할 수 있느냐임
생성형 인공지능에만 적용되는 더 명확한 법이 필요함. 실제 사람과의 비교와 유추가 너무 많이 나오고 있음
“누군가 상표권 자료를 보며 그림을 배웠다가 실수로 비슷하게 만들면 어떡하나” 같은 말이 나오지만, 이 모델들은 사람이 아니며 별도 범주에 존재함
이런 모델들이 어느 정도 상표권 침해를 한다고 보지만, 동시에 허용되어야 한다고도 생각함. 최종 책임은 일반 대중이 소비할 독립 매체로 이미지를 사용하는 사람에게 있어야 함
- 나도 그 입장임. Dall-E가 C3PO를 뱉어내는 것 자체는 완전히 괜찮아야 함. 내가 그 출력으로 돈을 버는 게 아니라면 Disney는 물러나야 함
이런 논의에서 모델들은 핵심보다 흐림막처럼 작동하고, 논의가 그쪽에 발목 잡히는 것 같음
모델들은 “책임 사슬”에서 그럴듯한 부인 가능성을 제공함. “LLM”을 빼고 “놀이공원 사이드쇼의 마법 상자”로 바꾸면, LLM이 뭔가 특별해서 예외를 받을 자격이 있다는 주장은 아주 빨리 사라질 것임
- 완전히 동의함
  Betamax 판례는 침해하지 않는 상당한 용도가 있는 기술은 그 자체로 침해가 아니라고 말함
  이미 인공지능 생성물에는 저작권 보호가 생기지 않는다는 선례가 있고, 같은 논리로 인공지능의 생성 행위에는 의도가 표현되지 않음. 따라서 침해 여부는 출력물을 사용하는 인간에게 달려 있어야 함. 블랙박스 자체에는 행위 주체성이 없기 때문임
- 동의하며, LLM이 산업에서 “파괴적” 방식으로 생산적이고 수익성 있게 쓰여 사람들을 실직시키는 등 구체적 사례를 먼저 보고 싶음
  LLM 또는 더 일반적으로 생성 기법이 somehow 다음 큰 물결이라고 결론내리기 전에, 혹은 우리가 “일반” 지능의 문턱에 와 있다고 주장하기 전에, 먼저 그 문을 보여줘야 함
  그 문은 상자에 뭔가를 입력하고 반대편에서 나오는 걸 보는 오락적 가치를 넘어, 실제 문제를 푸는 데 산업적 도입이 일어나는 모습일 수 있음. 하지만 지금까지 내가 보기엔 실제로 그런 일을 하는 곳은 없는 듯함

답변달기

생성형 AI에 더 큰 저작권 압박이 다가옴

New York Times 소송과 이미지 반복 실험

안전장치가 막지 못하는 유사 생성

출처를 알 수 없는 블랙박스 문제

소송 확산과 Microsoft의 위험

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들