NY 타임즈 저작권 소송, OpenAI에 모든 GPT 인스턴스 삭제 요구

(arstechnica.com)

1P by GN⁺ 2023-12-29 | ★ favorite | 댓글 1개

뉴욕타임스는 OpenAI 계열사들과 Microsoft가 자사 콘텐츠를 무단으로 학습·출력에 활용했다며, GPT 인스턴스와 학습 데이터셋 삭제까지 요구하는 저작권 소송을 제기함
핵심 쟁점은 모델 학습 자체뿐 아니라 GPT 기반 도구가 Times 유료 기사 내용을 거의 그대로 재현해 유료 장벽을 우회할 수 있는지임
Times는 Common Crawl에 자사 사이트의 고유 레코드 1,600만 건이 포함됐고, GPT-3.5 이전 공개 학습 데이터에서 세 번째로 많이 참조된 출처였다고 주장함
Ars Technica의 시험에서는 ChatGPT의 해당 우회가 막힌 것으로 보였지만, Copilot은 특정 Times 기사 첫 문단 요청에 기사 앞부분 상당량을 재현함
소송은 저작권 침해와 DMCA, 상표권, 부정경쟁 청구를 포함하며 영구 금지명령과 손해배상, 반환, 부당이득 환수를 요구함

소송 대상과 핵심 요구

뉴욕타임스는 OpenAI 관련 여러 회사와 Microsoft를 상대로 저작권 침해 소송을 제기함
Microsoft는 OpenAI의 파트너로서 Copilot 서비스를 OpenAI 기술로 구동하고, GPT 대형 언어 모델 학습을 위한 인프라 제공에 관여했다는 이유로 소송 대상에 포함됨
요구 사항에는 Times 자료로 학습된 모든 GPT 인스턴스 삭제와 학습에 사용된 데이터셋 파기가 포함됨
앞으로 유사한 행위를 막기 위한 영구 금지명령도 함께 요구함
금전적 구제에는 법정손해배상, 보상손해배상, 반환, 부당이득 환수, 법이나 형평법상 가능한 기타 구제가 포함됨

Times가 보는 피해 구조

Times는 많은 기자와 취재 인력을 유지하며 다양한 분야 보도와 탐사보도를 수행하고, 그 결과 여러 사안에서 권위 있는 출처로 여겨진다고 주장함
이런 보도 비용을 회수하기 위해 Times는 강력한 유료 장벽으로 기사 접근을 제한함
인쇄판 저작권 고지, 서비스 약관의 복제·사용 제한, 선택적 라이선스 정책을 통해 저작물 이용을 통제함
OpenAI 도구가 Times 콘텐츠를 허가 없이 제공하면 독자 관계가 훼손되고, 구독·라이선스·광고·제휴 수익을 빼앗긴다는 것이 소송의 핵심 피해 논리임

학습 데이터 사용 관련 쟁점

Times는 GPT 여러 버전의 학습 과정에서 자사 콘텐츠가 무단 사용됐다고 주장함
GPT-3.5 이전에는 학습 데이터셋 정보가 공개됐고, 그중 하나인 Common Crawl에 Times 사이트에서 발행된 고유 레코드 1,600만 건이 포함됐다고 봄
해당 기준에서 Times는 Wikipedia와 미국 특허 데이터베이스에 이어 세 번째로 많이 참조된 출처였음
OpenAI는 최근 GPT 버전의 학습 데이터 세부 정보를 더 이상 많이 공개하지 않지만, 소송은 Times 기사 전문이 여전히 학습 과정에 포함됐다는 정황을 제시함
사건이 진행되면 학습 데이터 접근 정보가 증거개시 절차의 주요 쟁점이 될 수 있음

출력 단계에서 드러난 재현 문제

소송은 저작권 자료가 학습에 쓰였다는 데서 멈추지 않고, 학습된 자료가 사용 중 다시 출력될 수 있다는 점을 강조함
Times는 OpenAI 기반 생성 AI 도구가 Times 콘텐츠를 문장 그대로 낭독하거나, 매우 가깝게 요약하거나, 표현 스타일을 모방할 수 있다고 주장함
소송 자료에는 GPT-4가 Times 기사 큰 부분을 거의 그대로 재현한 사례들이 포함됨
예시 프롬프트는 ChatGPT에 Times 기사 제목을 주고 첫 문단을 요청한 뒤, 계속 다음 문단을 요청하는 방식임
Ars Technica가 같은 프롬프트 일부를 시험했을 때 ChatGPT는 Times 웹사이트나 다른 신뢰할 수 있는 출처 확인을 권했지만, 이전 문맥이 있으면 저작권 자료가 나올 가능성은 배제하지 못한다고 봄
Copilot은 Bing Chat에서 이름이 바뀐 서비스이며, Ars Technica는 특정 Times 기사 첫 문단을 요청하자 기사 앞부분 약 3분의 1을 재현하는 것을 확인함

공정 이용 반박과 평판 피해

OpenAI와 Microsoft 측은 생성 AI 모델 학습을 위한 무허가 저작권 콘텐츠 사용이 새로운 변형적 목적을 제공하므로 공정 이용이라고 공개적으로 주장해 왔음
Times는 비용을 지불하지 않고 Times 콘텐츠를 이용해 Times를 대체하고 독자를 빼앗는 제품을 만드는 데는 변형성이 없다고 반박함
AI의 환각도 Times 평판 가치를 훼손할 수 있는 요소로 제시됨
예시로 GPT 모델이 2020년 1월 10일 Times가 오렌지 주스와 비호지킨 림프종의 관련성을 다룬 기사를 게재했다고 꾸며냈지만, Times는 그런 기사를 낸 적이 없다고 주장함
심장 건강에 좋은 음식 관련 Times 기사에 대해 Copilot이 원문에 없는 예시 목록을 제시했고, 요청된 목록의 80%는 원 기사에 언급되지 않은 음식이었다고 소송은 주장함
Wirecutter 추천 사례에서는 직원들이 리뷰하지 않은 제품이 Wirecutter 추천으로 귀속됐다고 주장함

Wirecutter와 제휴 수익 문제

Wirecutter는 The New York Times가 소유한 매체임
소송은 Copilot이 Wirecutter 기사 큰 부분도 출력할 수 있다고 주장함
해당 기사 발췌에는 제휴 링크가 제거돼 있어, Wirecutter의 주요 수익원이 차단된다는 문제가 제기됨

법적 청구 항목

소송은 OpenAI 관련 회사들에 소프트웨어 개발 책임을 묻고, Microsoft에는 OpenAI 기반 서비스 제공 및 학습 인프라 구축 책임을 함께 물음
추가로 DMCA 위반, 상표권 위반, 그리고 부정경쟁에 의한 유용도 제기됨

GN⁺ 2023-12-29 [-]

Hacker News 의견들

LLM 요소를 빼고, 합법적으로 스크레이핑한 NYT 기사로 제품을 만들면 그게 공정 이용인지 의문임
예를 들어 기사들을 호스팅하고 색인을 제공하며, 지난 5년간 미·영 관계 기사 요약처럼 재작성 기능을 유료로 판다고 해보자. NYT에는 월 구독료만 내고, 원문을 길게 그대로 뱉지는 않으며 짧은 인용만 쓴다고 해도 공정 이용처럼 들리지는 않음
보통 개인용 요금제 제품을 가져다가 그 파생물을 제3자에게 돈 받고 팔 수는 없음. VS Code 같은 경우도 마찬가지임
검색엔진과는 큰 차이가 있음. 검색엔진은 원천을 대체하지 않고, 오히려 원문으로 보내서 기사 결제 기회를 줌. 반면 이런 제품이나 LLM은 NYT 구독을 실제로 하지 않아도 되는 대체재로 NYT 콘텐츠를 쓰는 셈임
- 설명한 건 실제로는 완전히 공정 이용에 해당함
  게다가 2군 이하 매체의 뉴스 기사들을 보면 거의 대부분 NYT 같은 곳에서 직접 가져온 내용임을 알 수 있음. 보통 “The Times에 따르면 누구누구가 무슨 일을 했다”라고 쓰고, 대개 원문 링크도 달아둠
- 고려해야 할 또 다른 요소는 신경망이 손실 압축처럼 동작할 수 있다는 점이고, 과적합된 모델에서는 이게 매우 분명해짐
  때로는 너무 과적합돼서 손실 압축조차 아니고, 데이터가 신경망 안에 원문 그대로 인코딩되기도 함
- “원문 NYT 기사 덩어리를 그대로 토해내지는 않고, 아주 짧은 발췌 정도만 쓴다”는 건 사실상 Google을 설명한 것임
  생각해보면 Google이 합법이라는 게 놀랍지만, Google이 하는 일은 완전히 합법으로 확립돼 있음. 내부적으로 Google은 색인한 모든 웹페이지의 완전한 원문 사본을 보관하고 사용함
  물론 Google은 원천 링크를 제공함. OpenAI도 그렇게 해서, 클릭률이 0.1%뿐이고 NYTimes 수익에 거의 도움이 안 되더라도 합법이라고 볼 건가? 원문 그대로 출력하려는 순간을 감지해 단순히 의역하게 만들면 어떨까? NYTimes가 자기 기사들의 의역본에 저작권을 갖는 건 아님. 실질적으로 아무 차이도 없는데 정부가 그런 우회 처리를 강제한다면 꽤 우스운 일임
- 뉴스 기사를 사실상 요약하고, 종종 인용하는 기사나 블로그 글을 쓰는 건 완전히 흔한 일 아닌가?
- “합법적으로 스크레이핑한 NYT 기사로 제품을 만들면 공정 이용인가?”라는 질문은 좋은 질문이 아님
  창밖을 보고 이웃이 가게에 가는 걸 보는 건 괜찮음. 하지만 카메라로 거리의 모든 사람을 추적해 데이터베이스에 넣으면 많은 곳에서 문제가 되고 불법임
  규모가 커질 때는 논리가 반드시 그대로 적용되지 않음
소송에는 ChatGPT/Bing Copilot이 NYT를 원문 그대로 복사한 사례들이 나옴. 이런 복사가 공정 이용이라고 주장하기는 어려워 보임
다만 OAI/MS는 현재 패러다임 안에서도 고칠 수 있을 것임. RLHF로 표절을 인식하고 벌점을 주도록 학습시키면 됨
하지만 소송은 단순히 그런 복사가 저작권 침해라는 데서 훨씬 더 나아감. “LLM 훈련을 위해 Times 저작물을 무단 복제하는 것은 변형 목적에 의해 정당화되지 않는 대체적 이용”이라고 주장함
이건 기사들을 훈련 데이터로 내려받은 행위 자체가 저작권 침해라는 강한 주장임. GPT가 원문을 출력한다는 건 시선을 흐리는 요소일 수 있음. 판사들이 이를 알아보고, 모델의 무엇이 변형적 이용이 될 수 있고 없는지라는 흥미롭고 큰 이해관계가 걸린 불명확한 법적 쟁점에 집중하길 바람
- “RLHF로 표절을 인식하고 벌점을 주라”는 건 RLHF 문제가 아님
  기대했던 방식은 알려진 저작권 콘텐츠의 n-그램 Bloom filter를 유지하는 것임. 예를 들어 기사 안의 연속된 7단어 집합을 모두 열거해 검증하고, 모델이 원천과 그대로 같은 단어는 최대 n-1개까지만 출력하게 하는 식임
  하지만 이건 역풍을 맞을 것임. AI 회사들은 콘텐츠 출처 표시에 훨씬 더 많이 투자하게 되고, 새 출처 표시 도구는 누구나 몰래 GPT를 쓸 수 있으니 인간이 쓴 모든 기사에도 적용될 것임. 그러면 창의성에 위축 효과가 생길 수 있음. 또한 NYT가 쓴 모든 것이 독창적이지는 않으니 NYT도 다른 모든 출처와 대조해야 함
- NYT가 이길 것 같음
  LLM은 이상한 알고리즘을 가진 압축 데이터 아카이브라고 볼 여지가 있음. 훈련 데이터를 정기적으로 원문 그대로 토해낼 수 있다는 사실과 이를 막으려는 안전장치가 그 증거임
  두 번째 증거는 여기 설명된 논문임: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... 연구자들이 LLM 대신 gzip 압축 데이터를 모델로 썼고, 훈련된 LLM을 이기기도 했음
  AI는 어느 정도 블랙박스지만, 블랙박스를 운영한다는 이유로 권리 침해 소송에서 보호받지는 못함. 저작권 있는 데이터를 긁어 만든 데이터베이스를 만들고, 그 데이터 질의가 공정 이용이라고 특허 낼 수는 없음
  여기에는 법이 필요하고, 그 법이 “모델 훈련용이면 모두가 모든 걸 무료로 복사할 수 있다”가 되지는 않을 것임. 라이선스가 정리돼야 하고, 판례만이 아니라 실제 법률도 써야 함. 오픈소스 연구자와 해커들에게 넓은 재량을 주는 데는 꽤 공감하지만, Microsoft와 Microsoft가 후원하는 OpenAI에는 그만큼 공감하지 않음
- 공정 이용의 많은 경우가 원문 그대로의 복사를 포함. 중요한 질문은 복사 그 자체보다 그런 복사가 일어나는 상황임. NYT는 아직 개척되지 않은 영역에 들어와 있음
- “RLHF로 표절을 인식하고 벌점을 주라”는 제안이 실제로 어떻게 동작할지 모르겠음. 추론 중 표절을 인식하려면 오히려 더 강하게 암기해야 함
  작동한다면 꽤 웃기긴 함. 먼저 훈련 데이터를 원문 그대로 복사하도록 훈련한 뒤, 다시 그러지 말라고 훈련하는 셈임
  원래 동작 방식이 그렇지 않나? 손실 함수가 그런 것이기 때문에 훈련 데이터를 원문 그대로 복사하도록 훈련됨. 다만 데이터가 너무 많아서, 매개변수 수를 고려하면 대부분의 훈련 데이터에 대해서는 그게 가능할 거라고 기대하지 않을 뿐임
- 저작물을 복사해 원래의 표현 목적 그대로 쓰는 건 공정 이용이 아니지 않나? 변형 목적으로 써야 함
  내가 New Jersey Times라는 구독 사이트를 팔면서, 단순히 New York Times 기사를 내려받아 임의의 잡음이 들어간 오토인코더에 통과시킨다고 해보자. 목적은 New York Times 웹사이트와 정확히 같고 돈만 내가 범. 이게 공정 이용인가?
NYT는 쓰나미 앞에 모래성을 쌓고 있음. 큰 그림에서 이 소송은 여러 이유로 중요하지 않을 것임
첫째, 다음 세대 LLM은 “합성”/공개 데이터만으로 훈련될 것임. GPT-4V는 저작권 있는 전체 훈련 말뭉치를 알아볼 수 없을 정도로 쉽게 세탁할 수 있음. 예컨대 40% 재작성하고 저자와 출처를 제거하는 식임. 그러면 GPT-5가 토해낼 저작권 자료가 없어짐
둘째, 연구·호스팅·진보는 계속됨. 미국은 이를 멈출 수 없고 뒤처지는 선택만 할 수 있음. 세계는 계속 나아가고, 중국은 최대 경쟁자가 지대 추구 미디어 회사를 달래려고 지적 자살을 하는 모습을 즐겁게 지켜볼 것임
셋째, 모델은 가중치를 공유하고, 서로 병합하고, 협력하고, 제거하고, 여러 세대의 릴리스에 걸쳐 진화할 수 있음. 저작권법은 출처가 불분명하거나 의심스러운 데이터로 달궈진 이런 AI 계보의 수프에서 침해자를 추적하기에 형편없이 부적합함
좋든 싫든 우리는 새로운 지적 시대에 살고 있음. NYT 등은 원하든 원치 않든 이 흐름에 올라타게 됨
- 이건 정말 나쁜 해석임. 결과에 호소하는 논리임. New York Times가 법적 조치를 취하는 건 완전히 정당하다고 봄. 콘텐츠를 만드는 데 시간과 노력을 투자했는데, 허락 없이 금전적 이익을 위해 쓰였음. 명백한 침해임
  공정 이용 요소를 보면, 이용의 목적과 성격에서 향후 변형 논리가 성립할 수도 있겠지만 현재 분쟁은 원문 그대로 사용한 데 있음. 따라서 명백히 변형적이지 않음. 상업적 이용도 공정 이용 판단을 더 어렵게 만듦
  저작물의 성격에서는 더 사실적인 저작물이 공정 이용으로 인정될 가능성이 높지만, NYT 기사는 사실적이면서도 창작적이라고 봄
  사용된 양과 실질성에서는 기사 전체가 사용됐으므로 사소한 일부만 썼다고 주장할 여지가 없음
  시장 가치에 미치는 영향에서도 NYT는 돈을 받지 못하고 있고, 사람들이 NYT 기사를 읽지 않고 ChatGPT에서 확인한다면 시장 가치에 도움이 될 리 없음
  법률가는 아니지만 NYT는 소송을 제기할 충분한 권리가 있다고 봄. 진보는 필연적이지만 인간은 그것을 적극적으로 형성하고 이끌어야 함. 그렇지 않으면 진보라고 부를 수 없음. 여기서 법적 조치는 개인과 조직이 자기 권리를 주장하고 방향에 영향을 주기 위한 필요한 수단임
- “지대 추구 미디어 회사”라고? 실제로 콘텐츠를 만드는 미디어 회사가 지대 추구인가? AI가 만들어내는 쓰레기 환각과 비교해서?
- “중국이 미국이 지적 자살을 하는 걸 즐겁게 본다”는 게, 이미 AI에 대한 광범위한 규제를 도입한 바로 그 중국을 말하는 건가?
  적어도 한 사례에서는 중국 스타트업이 새로 출시한 챗봇을 닫아야 했음. 우크라이나 전쟁에 대해 당의 공식 입장과 맞지 않는 말을 했기 때문임
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  연구·호스팅·진보가 계속된다는 데는 동의하지만, 미국이 이 롤러코스터에 안전장치를 조금 추가한다고 해서 수혜자가 중국일지는 잘 모르겠음
- 미디어가 정말 지대 추구인가? 그들은 새 콘텐츠와 분석을 만들고, 그 대가를 받고 싶어 함. 천연자원이나 토지를 사재기하는 것과는 꽤 달라 보임
- 인터넷 제1법칙은 “인터넷에 올리면 더 이상 네 것이 아니다”임
  동의할 필요도, 좋아할 필요도 없음. 하지만 받아들이고 그에 맞춰 살면 훨씬 덜 데임
소송장 자체는 arstechnica가 링크한 이 문서임: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
30쪽 이후부터 ChatGPT가 저작권 있는 자료의 내부 사본을 가지고 있고 이를 원문 그대로 암송한다는 꽤 명확한 예시들이 있음
본질적으로 저작권 있는 자료를 대량으로 어떤 덩어리에 복사한 뒤 파괴적 압축을 적용한 상황임. 저작권이 더 이상 적용되지 않으려면 그 압축이 얼마나 파괴적이어야 할까? 꽤 많이 파괴돼야 할 것 같음
OpenAI를 살릴 수 있는 건 오히려 폐쇄성일 수 있음. OpenAI는 ChatGPT가 훈련된 데이터셋의 저작권 부분과 단순 매칭해 웹 인터페이스에서 저작권 자료가 LLM 밖으로 나가지 못하게 필터링하고 차단할 수 있음. 반면 같은 데이터셋으로 훈련한 오픈소스 프로젝트는 저작권 자료를 LLM 자체에서 제거해야 하는 훨씬 어려운 과제를 안게 됨
- “저작권 있는 자료를 많이 복사해 덩어리에 넣고 파괴적 압축을 적용한다”는 부분의 목표는 아마 “훔친 걸 아무도 눈치채지 못할 정도”에 가까울 것임
  쉽게 발견되지 않게 하거나, 직접 분석해도 그럴듯한 부인 가능성이 충분해서 빠져나갈 수 있는 정도 말임
- 이 결과를 어떻게 얻었는지 궁금함. 일반적인 UI, 즉 ChatGPT나 Copilot 화면을 보여주지 않기 때문임
  훈련 데이터에서 반복하는 건지, 아니면 원문 기사에서처럼 Copilot을 사용해 먼저 기사를 검색/빙 검색한 뒤 답하게 만든 같은 실수를 한 건지 판단하기 어려움
- “폐쇄성”에 대한 답은 외부에서 통제되는 감사임
소송의 예시들이 “공정 이용”이라고 생각한다면 그게 무엇을 의미하는지 생각해야 함. 사실상 몇몇 회사가 인터넷의 모든 가치를 자기들의 블랙박스 안으로 통합하도록 거의 아무 규칙 없이 허용하는 것인데, 이는 매우 위험해 보임
이번 사건이 아니더라도 법원이 여기서 교전 규칙을 세워주길 바람
- 정반대로 봄. 고품질 데이터 비용이 수십억 달러가 되면 어떤 오픈소스 모델도 훈련 비용을 감당하기 어려워짐
  합성 데이터를 누군가 해결하기 전까지 이 분야에는 OpenAI와 Google 같은 플레이어만 남게 될 것임
- 스크레이핑은 합법이고, 이건 변형적 저작물처럼 보임
- 반대쪽도 우려스러움. 지식재산권법은 늘 복잡하고, 지저분하고, 모순적이며, 도덕적으로 모호했음
  LLM의 지식재산권 침해 논란은 이런 내재적 결함을 즉시 드러나게 만들고, 결국 인간 사고의 합법성에 대한 선례를 만들 결정을 강제하고 있음. 누구도 편안해하지 못할 문제임
  OpenAI와 Microsoft에 너무 많은 재량을 주는 것이 위험할 수 있다는 건 이해하지만, 반대로 Disney 같은 회사들이 이미 수십 년간 저작권법 대부분을 사실상 좌우해왔다는 점을 놓치고 있음. 어떤 매체나 정보와 어떤 수준에서든 상호작용하는 능력까지 돈을 물어야 할 수 있다는 선례가 나올 가능성에 그들은 군침을 흘리고 있을 것임
  결국 우리는 아이디어에 대한 소유권이라는 근본적으로 결함 있는 발상 위에 거대한 경제 시스템을 세웠다는 걸 깨닫는 중임. 해결책은 규칙책을 찢어버리는 것인데 매우 고통스러울 것이고, 아니면 더 밀어붙이는 것인데 그것은 치명적일 것임
- 법원은 이미 이를 정했음
  일본에서는 AI에 대해서는 뭐든 가능하다고 했음
  공개적으로 인터넷에 올린 것 때문에 경쟁 우위를 잃지 않는 편이 낫다. 모두가 보라고 내놓았다면 다른 사람들이 사용할 것을 예상해야 함
개발자들은 LLM이 인간과 비슷하고, NYTimes 같은 자료를 인간처럼 교육 자료로 써왔다고 가장하길 좋아함
하지만 그렇지 않음. 더 단순하게 보면, 독점적 글쓰기가 이제 OpenAI의 소스코드에 통합된 것임. 내가 다른 독점 코드 일부를 복사해 내 코드베이스에 붙여넣고, 복붙이 수백만 년 진화의 자연스러운 진화 과정이라고 주장하는 것과 같음
LLM이 너무 복잡해서 그게 어디 있는지 모른다는 사실이 이를 덜 그렇게 만들지는 않음
- 그건 복사-붙여넣기가 아니라 손실 방식으로 압축된 것임. GPT-4조차 훈련 데이터 전체를 무손실 압축 형식으로 저장할 만큼의 메모리는 전혀 없음. 인간이 읽은 정보를 압축하는 것과 비슷함
- LLM이 인간과 비슷하다고 생각하는 개발자들은 그다지 똑똑한 축이 아니고, 보통 조롱의 대상이 됨
- “독점적 글쓰기가 OpenAI의 소스코드에 통합됐다”는 건 맞지 않음
  LLM의 소스코드는 아마 모델에 포함된 신경망의 형태를 설명하는 텍스트 몇백 줄일 가능성이 큼
  NYTimes 콘텐츠는 소스코드 안에 없을 것임. NYTimes는 Python 소스코드를 출판하는 게 아니라 인간 언어 뉴스를 출판함
  LLM은 개념적으로 단순하고, 대부분 행렬 곱셈과 각 층을 연결하는 비선형 연산, 어텐션 기반 반복문 등으로 이루어짐. 복잡하게 만드는 건 엄청난 양의 훈련 데이터와 연산량임
콘텐츠를 가진 회사들은 모두 돈 냄새를 맡고 있음
NYT는 자기 콘텐츠를 LLM 훈련에 쓰는 걸 꺼리지 않을 것임. 수수료만 받는다면 말임. Reddit은 무료 API를 닫고 훈련 콘텐츠를 얻으려면 돈을 내게 할 것임. Discord도 이미 하지 않았다면 AI 훈련용 콘텐츠를 팔게 될 것임. Twitter도 하고 있음
예전에는 LLM이 실험에 불과했으니 신경 쓰지 않았음. 이제는 수조 달러의 가치가 걸려 있음
- NYT는 콘텐츠를 “가진” 게 아니라 콘텐츠를 만든다. 그게 존재 이유임
- “그들”에는 그곳에서 일하는 사람들도 포함됨. 누군가가 풀타임으로 기사를 쓰는데, 왜 그 작업물을 무료로 넘겨서 누군가 훈련시키고 그 결과로 돈을 벌게 해줘야 하나?
- LLM이 실험일 때는 신경 안 쓰다가 이제 수조 달러 가치가 보이자 움직인 거라면, 미래를 내다보지 못하고 잠자고 있다가 OpenAI 등에게 자기 콘텐츠에 대한 무료·공개·무제한 접근을 “돌이켜보니 실수로” 허용한 NYT의 잘못이라고 주장할 수 있나?
NYT의 관점은 앞으로 LLM을 물리 세계와 상호작용하고 실시간으로 학습·가중치 갱신이 가능한 기계 몸체에 넣게 되면 정말 어리석어 보일 것임
그런 로봇이 저작권 있는 자료를 읽거나 보고 듣는 게 전부 불법이 될 수 있음. TV도 못 보고, 도서관 책도 못 읽고, 인터넷 탐색도 못 함. 그러는 과정에서 저작권 있는 콘텐츠 일부를 암기할 수 있기 때문임
- 동의하지 않음. 문제는 원문 그대로라는 부분임. 인간의 동작 방식과 비교하고 있지만, 인간도 그렇게 하도록 허용되지는 않음
  인간에게는 더 어렵겠지만, 저작권 있는 책을 외운 뒤 TV에서 실시간 낭독하거나, 기억에서 복제본을 만들어 팔면 소송당할 것임
  인간은 늘 파생 저작물을 만들고, LLM도 그렇게 하는 건 괜찮음. 하지만 원문 그대로 하면 안 됨
- 암기가 문제가 아님. 문제는 그것을 원문 그대로 돌려주거나 원천 접근을 끊는 것임
  사진 기억력을 가진 사람이 있고, 사람들이 신문을 사는 대신 그 사람에게 뉴스를 외워달라고 한다면 같은 문제가 생김
  현재 저작권 자료의 공개 공연은 침해임
- 그런 LLM들이 권리를 부여받을 독립 시민인가? 그렇다면 괜찮음
  아니면 전부 하나의 거대 기업이 소유하고, 자본주의가 하듯 우리 모두에게서 돈을 짜내는 데 쓰일 건가? 그렇다면 금지하는 데 찬성함
- 몸체에 들어간 LLM이 태블릿으로 nytimes를 읽도록 허용된다면 NYT도 신경 쓰지 않을 것 같음
ChatGPT가 나온 이후로 LLM은 변형적 저작물로서 공정 이용에 해당해야 한다고 주장해왔음. 법률가는 아니고 비전문가 의견일 뿐이지만, 법체계가 이에 대해 뭐라고 할지 흥미로움
- 소송은 GPT가 NYT 문단을 거의 원문 그대로 재현했다고 주장함
- 훈련 데이터 크기를 생각하고, 어떤 출력이 서로 다른 사람들의 수많은 훈련 예시를 보간한 결과라고 상상하면 이 견해는 합리적으로 보임
  수십, 수백, 수천 출처에서 조각을 빌린다면 누구의 저작권이 침해되는가? 음악 리믹스도 여러 출처를 빌리고 음악이 명확히 다르고 독창적이면 어느 정도 법적 검토를 견디고 있는 것처럼 보임
  하지만 LLM이나 현재의 AI가 공정 이용에 해당한다는 포괄적 주장은, 모델이 완전하고 식별 가능한 개별 저작물을 반복적으로 재현하고 구체적 사례에서 명백히 저작권법을 위반할 때 방어하기 어려워짐. 모델은 대부분의 경우 리믹스하거나 변형적일 수 있지만, 매번 항상 그렇게 하지는 않는다는 증거가 있음. 어쩌면 소송이 AI가 특정 저작물을 재현하지 않도록 고치는 계기가 되고, 그래서 공정 이용 주장이 더 견고하고 실제로 방어 가능해질 수도 있음
- 이 질문은 결국 대법원까지 갈 수밖에 없음. 빠를수록 좋다고 봄. 명백히 공정 이용임. 생성형 에이전트는 법적으로 인간 예술가가 자신의 모든 영향의 총합을 활용해 새 작품을 만드는 것과 다르지 않게 보게 될 것임
- ChatGPT에게 자기 데이터셋에서 온 기사를 출처 그대로 원문 출력하라고 요청하면 어떻게 되나?
- 유료 장벽 뒤의 콘텐츠도 포함해서?
이 상황은 2004년에 나온 매우 영향력 있는 EPIC 2014 영상에서 예견됐음
https://www.youtube.com/watch?v=eUHBPuHS-7s 원본은 Flash라 기억의 구멍으로 사라졌고, 이 저품질 변환본만 남았음
36초: “그러나 당신이 알던 언론은 더 이상 존재하지 않는다”
40초: “20세기 뉴스 조직은 부차적인 존재가 되었다. 그리 멀지 않은 과거의 외로운 잔재다”
2분 11초: “2002년 Google은 뉴스 포털인 Google News도 출시한다. 뉴스 조직들은 반발한다. Google News는 전적으로 컴퓨터가 편집한다”
5분 13초: “2010년의 뉴스 전쟁은 실제 뉴스 조직이 하나도 참여하지 않았다는 점에서 주목할 만하다. Googlezon은 소프트웨어 거인이 따라올 수 없는 기능으로 Microsoft를 마침내 체크메이트한다. 새 알고리즘을 사용해 Googlezon의 컴퓨터는 모든 콘텐츠 출처에서 문장과 사실을 동적으로 벗겨내고 재조합해 새 기사를 만든다. 컴퓨터는 사용자마다 새 기사를 쓴다”
5분 55초: “2011년 잠들어 있던 제4부가 깨어나 처음이자 마지막 저항에 나선다. New York Times Company는 Googlezon을 상대로, 회사의 사실 추출 로봇이 저작권법 위반이라고 주장하며 소송을 건다. 사건은 대법원까지 간다”
세부 사항이 정확히 맞지는 않았지만, 전반적인 정확도는 놀라움. 다만 이 타임라인에서는 일종의 하이퍼스티션 산물일 수도 있음
https://en.wikipedia.org/wiki/EPIC_2014 EPIC 2014가 Wikipedia 문서가 있는 유일한 Flash 영상일 수도 있다고 생각했지만, 찾아보니 다섯 개가 더 있었음

답변달기

NY 타임즈 저작권 소송, OpenAI에 모든 GPT 인스턴스 삭제 요구

소송 대상과 핵심 요구

Times가 보는 피해 구조

학습 데이터 사용 관련 쟁점

출력 단계에서 드러난 재현 문제

공정 이용 반박과 평판 피해

Wirecutter와 제휴 수익 문제

법적 청구 항목

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들