6P by GN⁺ 18시간전 | ★ favorite | 댓글 1개
  • Anthropic이 AI 챗봇 Claude를 훈련하기 위해 중고 도서 수백만 권을 절단스캔했다고 판사가 밝힘
  • 별도로 700만 권 이상의 불법 복제 도서를 다운로드한 사실도 판결문에서 언급됨
  • 판사는 구입 도서를 디지털화해 훈련용 데이터로 사용하는 행위는 공정 사용에 해당한다고 판단함
  • 반면, 불법 복제본 데이터 활용은 공정 사용으로 인정하지 않으며 저작권 침해임을 강조함
  • 이번 판결은 AI 모델 훈련 시 저작권 적용 관련한 중요한 선례로 평가받고 있음

개요

  • 미국 캘리포니아 북부 지방 법원의 William Alsup 판사는 AnthropicAI 챗봇 Claude 훈련을 위해 데이터 소스로 도서, 소셜 미디어 게시물, 동영상 등 다양한 자료를 사용했다고 분석했음
  • Anthropic는 수백만 달러를 투자해 대량의 중고 도서를 구매한 뒤, 제본을 분리하고 페이지를 절단해 디지털 파일로 변환함
  • 변환된 파일을 사내 리서치 라이브러리에 저장했으며, 원본 도서는 처분됨
  • 또한, AmazonAlphabet의 지원을 받는 Anthropic는 7백만 권이 넘는 불법 복제 도서를 별도로 다운로드해 Claude 모델 훈련에 이용함

도서 활용 및 불법 복제본 활용 과정

  • Anthropic의 공동 창립자 Ben Mann은 2021년에 Library Genesis에서 최소 500만 권의 도서를 불법적으로 다운로드함을 인정함
  • 2022년에는 Pirate Library Mirror에서 최소 200만 권을 추가로 다운로드함
  • 공동 창립자 겸 CEO Dario Amodei는 "법적·관행적·비즈니스적 번거로움을 피하기 위해 도서를 훔치는(steal) 것을 더 선호"했다고 언급함
  • 2023년에는 세 명의 작가가 Anthropic를 상대로 자사의 도서 불법 복제본을 무단으로 사용했다는 이유로 집단 소송을 제기함

판사의 판단: 도서 공정 사용과 도서 해적판(불법 복제) 구분

  • 포인트 1: 공정 사용 인정
    • 판사는 Anthropic의 대량 도서 디지털화 및 AI 학습 데이터로의 사용을 "매우 변형적(exceedingly transformative) "이라 판단
    • 판결문에서는 "Anthropic의 LLM은 기존 문서를 단순 복제하거나 대체하려는 것이 아니라, 완전히 다른 것을 창조하기 위해 학습한다"고 언급함
    • 회사가 직접 구매한 도서를 디지털화하여 라이브러리에 보관하는 행위는 공정 사용에 해당함
  • 포인트 2: 불법 복제본 사용은 공정 사용 아님
    • 판사는 Anthropic가 해적판(불법 복제본) 도서를 데이터로 활용한 점에 대해 단호하게 비판함
    • "Anthropic는 중앙 라이브러리에서 불법 복제 도서를 사용할 권리가 없으며, 영구적·범용 라이브러리 구축이 자체적으로 공정 사용을 정당화하지 않는다"고 명시함

영향과 업계 동향

  • 이번 판결은 저작권 보호 도서를 AI 모델 훈련 데이터로 활용하는 것이 공정 사용에 포함되는지에 대한 첫 사례 중 하나임
  • 최근 OpenAI 및 여러 생성형 AI 기업들을 상대로 창작자, 아티스트, 언론사 등이 유사 소송을 연이어 제기하고 있음
  • AI 업계는 AI 모델 훈련이 공정 사용의 범주라 주장하며, 크리에이터들은 자신의 권리가 침해됐다는 입장임
  • 최근 Disney는 AI 이미지 생성 기업 Midjourney를 상대로 자사 캐릭터 저작권 침해 소송을 제기함

결론

  • Anthropic의 도서 디지털화 및 공정 사용 관련 부분은 AI 연구 및 저작권 해석에 전환점이 되는 판례로 평가됨
  • 반대로, 불법 복제본 활용에 대해서는 명확한 저작권 침해로 규정되어 향후 AI 학습 데이터 소싱 기준에 중요한 참고점이 됨
Hacker News 의견
  • 기사 원문 링크

  • 판사의 중요한 판결 요약: Anthropic이 저작권 있는 책을 AI 학습에 활용한 것은 “매우 변형적”이라는 이유로 공정 이용에 해당한다고 판단. Anthropic은 자신들이 구매한 실제 책을 중앙 도서관에 디지털 방식으로 보관한 것일 뿐, 새로운 복제본을 만들거나 재배포하지 않았다는 주장. “도서관을 불법 복제하는 행위”는 명백한 저작권 침해. 재밌는 점은 내부 이용을 위해 도서관을 스캔·디지털화하는 건 가능하다고 인정, AI 학습용 활용도 공정 이용으로 판단한 부분.

    • 한편 판사가 다른 논점에 대해 언급한 부분도 중요. Anthropic이 불법 복제된 책을 중앙 도서관처럼 사용한 것은 공정 이용이 아니라고 명확히 선 그음. 즉, 직접 책을 구매해 물리적으로 스캔해서 AI 학습에 활용하는 것은 공정 이용, 반면 해적판을 사용하는 건 공정 이용 아님

    • 이 판결이 새로운 건 아니라고 생각함. 10여년 전 구글이 이미 책을 디지털로 변환하는 건 허용된다는 선례를 만들었다고 봄

    • 내가 알기로는 Meta가 관련된 후속 재판에서 Vince Chhabria 판사가 공정 이용 주장에 반기를 든 적이 있음 관련 링크 (법조인은 아님)

    • 여기서 ‘독극과실(fruit of the poisonous tree)’ 원칙도 적용되는지 궁금함

    • 예전에 Aaron Swartz를 거의 같은 일로 종신형에 처하려고 했다는 점 생각하면 시대 변화가 정말 크다는 느낌

  • 대규모 저작권 침해에 연루된 개인의 실제 처벌 사례 참고 기사

    • 오히려 Aaron Swartz 사건을 언급할 줄 알았음

    • 위 기사 클릭해보니 사실상 수백만달러의 해적 소프트웨어를 ‘판매’한 사업체 이야기였음. 단순히 혼자 써보는 게 아니라, 명백히 도둑질해서 남들한테 되팔아 이득 본 사례. 변형적 활용, 개인적 사용과는 전혀 다른 케이스

    • Anthropic은 해당 자료를 판매하지는 않음. 개인이 책을 읽고 요약하거나 부분 인용하는 것도 감옥에 보내진 않을 듯. 그런데도 Autodesk에 저항했다고 7년형이면, 강도죄보다도 더 심하다는 사실이 법조계 현실을 잘 보여주는듯

    • 단순히 해적 소프트웨어를 불법 복제·판매한 사례와 Anthropic처럼 책을 활용한 사례는 매우 다르다고 생각함. Anthropic은 어떤 책의 ‘복제본’을 만들어 유통한 적 없음

    • 법을 어날 생각이면 먼저 법인 설립해서 책임 돌리라는 농담. 자본만 충분하면 법 위반도 커버 가능한 현실 풍자

  • Spotify 등 기업들도 초기에 불법 자료에 기반해 사업을 키운 정황이 있음. 예전부터 베타 테스트에 ‘해적판’ mp3 파일이 활용됐다는 소문. 실제로 ‘Scene’ 태그가 박힌 트랙이 다운로드됐던 경험담들이 있음 관련 기사

    • Crunchyroll도 본래 해적 애니 스트리밍 사이트였지만 정식 라이선스 획득하며 합법화. 2006년 시작, 2008년 VC 투자, 2009년 라이선스 체결 Forbes 기사, Venturebeat 기사

    • 사실 Spotify뿐 아니라 대부분의 테크 자이언트가 법의 회색지대나 규제 무시—즉 시장을 ‘디스럽트’ 하면서 돈 벌기. 법적 제재보다 부당이득이 훨씬 크기 때문. 아마존 이후 투자금 바탕으로 ‘공정 경쟁’ 무시하고 가격 덤핑하는 행위도 많아졌다고 생각. 미국 빅테크 기업들은 법을 거의 무력화시키면서 성장한 셈

    • ‘공식적으로 얻지 않은 음원’과 ‘저작권 없는 음원’은 다른 개념. 스트리밍 라이선스가 확보돼도 원본 파일이 없는 경우가 있음

    • Spotify 초기 UI가 Limewire와 1:1 복붙 수준이었던 점도 언급

    • Google Music도 사용자가 직접 mp3 등 업로드하는 방식이 있었는데, 당시엔 파일의 불법성이 구글 책임이 아니라는 주장. 아마존도 비슷한 서비스 경험 참고 글

  • AI 미래를 만들어가고 있다는 사람들이 이런 식으로 윤리를 저버리는 상황 의문. 중국이 수십 년간 위조품 문제로 제재받았는데, Anthropic 역시 불법 활동에 연루됐다면 수출 제한도 정당하다고 생각

    • 중국 위조 상품 문제에 대해 우리가 실질적으로 뭘 했는지 의문. 대부분의 처벌은 현지에서 적발된 가짜 물품 수입 차단 정도였을 뿐, 실질적인 처벌은 이뤄지지 않음. 오히려 미국 기업들이 오랫동안 생산까지 아웃소싱해 IP 도용 환경만 조성

    • 진짜 비윤리적인 쪽은 아예 책조차 안 사는 기업. 실제로 경제적·법적 파워가 있으면 더 쉽게 빠져나간다는 현실

    • 사회에 만연한 이중잣대와 권력에 대한 면죄부 지적. 음주운전, 폭력, 탈세 등 예로 들면서, 사회 전체가 권력·부·영향력에 따라 흔들린다는 점 강조. 출판사가 내 책 베껴가면 소송 가능하지만, AI 기업이 훔쳐가면 대형 로펌으로 소송조차 힘듬. 현실 세계에서 평등은 환상이고, 잘 나가는 쪽이 언제나 유리한 입장

    • Facebook 슬로건처럼, ‘부수면서 빠르게 나아가기’가 미덕인 시대

    • 책에 담긴 정보를 활용하는 게 왜 비윤리적인지 의문. Anthropic은 해당 책을 재판매한 게 아님. 책의 정보 그 자체는 저작권으로 보호받지 않음. 인용은 언제나 가능

  • Anthropic 공동창업자 Ben Mann이 2021년 Library Genesis에서 해적판 책 수백만 권을 다운받았다는 주장. 도둑질은 도둑질. 이중잣대는 그만두자는 의견

    • 대부분의 해적은 단순 ‘개인적 소비’가 목적인데, 해적판을 통해 ‘이윤추구’ 하는 것은 레벨이 다름

    • 단순 도둑질이 아니라, 시장 지배를 노리고 표적으로 훔쳐서 윤리적으로 행동한 기업들을 도태시키는 행위는 수많은 작가들에게 더 큰 피해 유발. 이런 건 ‘조직적 범죄’에 가깝다고 생각

    • “도둑질은 도둑질”이란 말은 너무 단순함. 상품을 들고 나왔어도 상황에 따라 처벌이 천차만별. 세부사항이 중요

    • ‘절도’의 정의부터 정확히 해야 함

    • “복사는 절도와 다름” 복제해가면 원래 사람도 자기 복사본을 계속 소유. 복제를 ‘절도’라 부르면 다른 과격한 주장도 성립된다는 반박

  • 대규모 AI 데이터 학습의 현실상, 해적판과 벌금이 책 수백만권을 일일이 사서 처리하는 것보다 훨씬 저렴. 물론 정당화될 수 없으나, 만약 본인 입장이라면 효율성 때문에 같은 선택을 할 수도 있다는 괴리

    • 이 논리의 문제점은, 수년간 책을 집필한 수많은 교사와 저자들이 대기업에 저작권 침해를 당해도 소송조차 어려울 것. 결과적으로 저자들이 집필을 포기하게 되고, 이미 그런 현상이 나타난다는 주장

    • 고의적 침해는 저작권당 최대 15만달러 벌금. 만약 모든 침해 자료에 대해 판결 나면, Anthropic 시가총액보다 더 큰 액수 가능. 실제로는 이런 초법적 판단은 적용되지 않고, 2000년대 초 Napster 운영 청소년과는 법의 잣대가 다름

    • “해적판은 징역 갈 일 아닌가?”라는 의문. DVD FBI 경고에 비춰볼 때 원칙론에 따르면 중범죄

    • 사실 기사에 따르면, Anthropic이 대량의 책을 정식으로 구매한 뒤 학습에 활용한 사례도 많음. 관련 소송의 모든 책은 정식구매본 포함. 중고책은 대량구매가 저렴

    • 법적 리스크 ‘제로’로 가려면, 출판사에 직접 연락해 AI 학습용 라이선스를 협상하는 게 원칙. 넷플릭스·스포티파이 등 모든 미디어 기업이 하는 방식. AI 기업에는 왜 이런 원칙을 다른 시각으로 적용하는지 의문

  • 내가 책을 소유하고 있다면 내 컴퓨터로 스캔하는 것은 합법이어야 한다고 생각. AI 기업들의 입장도 안타깝게 보임. 저작권 규정들이 AI 겨냥해 점점 더 엄격해지는 느낌. 내가 어떤 책 내용에서 아이디어 얻어 창작했더라도 책 저작권에 갚을 의무는 없다고 생각

    • 기사 내용을 제대로 봐야 함. 본문에서도 내 책을 스캔해 AI 학습에 쓸 수 있다고 명시. 오히려 이 판결은 AI 기업에 큰 호재. 반대로 해석하는 게 이해 안 됨

    • 공정 이용 논의에서 놓치는 점은, 해당 활용이 저작권자의 시장에 실질적 악영향을 미치는지 여부. 개인이 어떤 책을 보고 배워서 저자와 경쟁한다고 해서 그 영향력을 증명하긴 힘듦. 하지만 AI가 대량으로 학습해 출시한 모델로 인한 저자 수익 감소는 비교적 뚜렷하게 입증될 수 있음. AI가 저작물 기반으로 저자를 대체할 수 있다면, 공정 이용 취지와 부합하지 않음

    • 저작권법은 논리적으로 일관된 구조가 없는 느낌. 정보 자유와 혁신 독려라는 당초 목적도 모호. 법 해석은 판사의 주관에 따라 좌우. 결국 법 현실 논리는 ‘돈’이자, 저작권 힘은 거대 자본이 유지하기 때문. 만약 이젠 자본에 방해가 되면, 그동안 DRM이나 저작권 논리가 어떻게 바뀔지 경험할 차례

    • 규모가 커지면 모든 게 다르게 작동. 개인의 권리·규범을 메가 시스템에 그대 적용할 수 없고, 사회적으로도 이런 구분이 필요. 돈 가진 쪽은 이 문제를 무시하도록 만들었고, ‘규모’에 대한 규제가 미비해 발생하는 혼란이 근본 원인

    • 요약: 판사, Claude 학습용으로 책 활용한 건 공정 이용, 근데 ‘해적판’ 활용은 불법

  • 최근 유튜브가 다운로드 차단 강화한 것도 경쟁 AI회사들이 데이터셋 수집하는 것 막기 위해서일 수도 있다고 생각

  • 남을 비난하기는 쉽지만, 현재 스레드 최상위 댓글도 결국 Business Insider에서 ‘훔친’ 콘텐츠 링크. 누구나 공정하지 않다는 현실

    • 어떻게 Business Insider에서 ‘훔쳐진’ 콘텐츠인지 궁금. 공식 웹사이트에서도 같은 기사 볼 수 있고, 브라우저 캐시나 아카이브도 본질적으로 다르지 않음

    • 이게 오늘 스레드 최고의 댓글. 여기서 논리적 곡예를 보는 게 흥미롭다고 생각