4P by laeyoung 4일전 | ★ favorite | 댓글 1개
  • Anthropic이 작가들과 15억 달러에 소송 합의에 동의
  • 15억 달러는 미국 저작권 소송 역사상 최대 규모의 배상금
  • Anthropic은 50만 명의 작가에게 작품당 3,000달러를 지급할 예정
Hacker News 의견
  • archive.ph로 기사보기

  • 이건 모델 트레이닝 자체가 쟁점이 아니라는 점을 분명히 하고 싶음
    트레이닝 자체는 공정 이용(fair use)에 해당하는데, 책을 무단으로 복제한(pirating) 행위가 문제로, Anthropic이 데이터를 모으는 과정에서 실수로 이런 일이 발생함
    중고책 사서 스캔해서 학습시키는 건 괜찮음
    Rainbows End가 여러 면에서 시대를 앞선 소설임

    • 중고책 사서 스캔해서 트레이닝하는 게 괜찮다는 의견에 대해, 실제로 그런 걸 하는 회사는 없을 것 같음
      VC 자금 수십억 달러가 걸려 있는데, 누가 느긋하게 하나하나 책을 사서 스캔하겠냐는 생각
      모두가 벌금 감수를 택할 것이고, 벌금 수준이 억제 효과를 주기에 한참 부족함
      Uber가 처음에 택시 면허 없이 사업을 벌려 놓고, 이후 투자금으로 벌금과 로비로 위기 넘긴 것과 같음
      Anthropic도 출판사 하나하나랑 라이선스 체결하는 것보다, DRM 없는 PDF와 ePUB을 닥치는 대로 집어넣는 게 훨씬 빠르고 효율적이었음

    • 이번 건은 합의라 선례나 위법성 인정이 아님
      트레이닝이 공정 이용이라는 것도 스캔이 괜찮다는 것도 이번에 확정된 게 아님
      이 쟁점은 앞으로 다른 이들이 다퉈야 할 문제임

    • Rainbows End 소설이 시대를 예견했다는 점에 동의함
      독서를 원하는 사람들에게 너무 좋은 책이고, 저자 Vernor Vinge가 'singularity(특이점)'라는 용어도 대중화함
      Goodreads에서 Rainbows End 정보

    • 중고책을 사서 본다는 생각 자체가 이상하다고 봄
      모든 사람에게 도서관에 있는 모든 책을 자유롭게 읽을 권리가 있다고 생각함
      지식은 제공되기 위해 이 세상에 있는 것이고, 사람들은 적극적으로 접근해야 함

    • Aaron Swartz가 만약 리브젠(libgen)이 당연해진 이 시대를 봤다면 무슨 생각을 했을지 궁금함

  • 합의 조건 요약 공유

  1. 최소 15억 달러의 배상 기금 조성, 해당 분류에 들어가는 50만 저작물 기준으로 한 작품당 3천 달러 지급
    작품 수가 50만을 넘으면 추가 작품마다 3천 달러 상승
  2. Anthropic은 LibGen, PiLiMi에서 획득한 데이터셋을 법적 보존 요구와 무관하게 모두 파기 예정
  3. 2025년 8월 25일까지의 공식 “Works List”에 포함된 저작물에 한해서만 과거 침해 책임에서 해방
    향후 발생할 침해 및 생성 AI 산출물의 침해에 대해서는 이번 합의로 해소되지 않음
  • 중요한 점 하나는 “법적 선례”가 전혀 남지 않았다는 것임
    유사 소송이 생기면 모든 것을 처음부터 다시 싸워야 함
    지겠다는 판단이 들 때만 이런 합의를 택하는 경우가 많음
    구글이 Epic과의 소송에서 법원 판결 받기 전에 빨리 불리한 합의한 사례와 유사함

  • 합의는 단순 보상 문제가 아니라 데이터셋 폐기도 포함됨
    기사에 따르면 Anthropic은 “해당 불법 자료를 실제로 사용하지 않았다”고 주장
    만약 어떤 생성 AI 회사가 이런 해적판 데이터로 트레이닝하고 상업화까지 했다면 산업 전체가 흔들릴 위험
    이런 사례가 앞으로 얼마나 더 나올지 궁금함

  • 이렇게 계산하면 차라리 모든 책을 그냥 사는 게 훨씬 저렴하지 않은지 궁금함

  • 저작물이 50만 개밖에 안 된다는 게 의외임
    수백만 권을 다운로드했다는 인상도 있었기 때문임

  • 저자가 직접 참여할 수 있는지 궁금함

  • “1작품당 3천 달러”면, 저작권 계약으로 책을 라이선스 받는 데 아주 좋은 조건 같음

  • 그 많은 자금을 모은 것이 결국 출판사에 주기 위한 거였다는 생각이 듦
    투자자들에게 “우리는 소송 비용 등 큰 지출에 대비할 겁니다”라는 식의 피치를 상상하게 됨

    • 기사에서 보니, Anthropic은 최근 130억 달러를 추가로 유치했고, 창업 이후 총 270억 달러 이상 투자받았음
      거대한 배상액이라 해도 확보한 투자금에 비하면 소액임

    • 장난 같지만, 실제로는 훌륭한 투자 피치라고 생각함
      법적 이슈로 인한 잠재적 리스크를 해소하는 것이 회사의 가치를 높임
      특히 법적 불확실성이 해소됨으로써 동종 업계 내 투자 메리트가 커짐

    • 사실 이런 식으로 시스템이 움직인다고 봄
      모든 개별적 기회나 유리함은 기존 자본에 이익이 되는가에 달림
      돈이 어떻게 움직였는지 합리적 핑계만 그럴듯하면, 자본 입장에서 세부 사정은 중요하지 않음
      돈이 움직이고 나면 이후에 모두가 납득할만한 이야기를 만드는 것뿐
      이번 합의도 “트레이닝은 괜찮다, 해적판이 문제였다”라는 양측이 만족할 수 있는 내러티브를 만드는 방식
      AI 트레이닝 자체가 불법이라는 판례가 남는 걸 피하고 싶었던 게 주된 동기 같음

    • Anthropic이 규제를 피하고 빠르게 실행하는 전략을 원했음
      아무도 그렇게 하도록 강제하지 않았음

  • 저자라면 자신의 작업이 포함됐는지 확인할 수 있는 자료와 절차를 안내함
    LibGen 데이터 세트에서 저자명으로 검색하는 방법 소개
    합의안 공식 사이트에서 연락처 등록

  • 오픈소스 AI 입장에서는 아쉬움이 큼
    트레이닝을 위해 해적판 자료를 쓰는 것도 공정 이용이 되어야 함
    그렇지 않으면 Anthropic 같은 자금 여유 있는 대기업만이 출판사에 거액을 지불해서 AI를 개발할 수 있고, 수십억 권의 책을 사서 학습에 쓸 수 있는 방도가 아예 불가능함

    • 이것은 단순히 합의일 뿐 선례도, 위법 인정도 아님
      결국 대기업만이 비싼 엔지니어와 수만 개 GPU에 직접 투자할 여유가 있는 것도 사실임
      실제로는 풀뿌리 LLM 커뮤니티들은 학습셋 적법성에 그리 민감하지 않을 것 같음

    • 공정 이용은 자료를 어떻게 얻느냐가 아니라, “적법하게 접근”한 후 무엇을 하는지에 대한 기준임
      적법하게 접근하지 않았다면 공정 이용 논의 자체가 불가능함

    • 이 논의는 마치 모델 학습이자체가 일종의 권리라는 전제를 깔고 있는 것 같음

    • 원하는 책 전부 구매해서 모델에 학습시키면 실제로 얼마나 들지 궁금함

  • 한 가지 떠오른 점은, 웹에 공개하는 콘텐츠를 인간에게만 무료로 쓰게 하고, AI 크롤러 이용 시에는 해적판으로 간주해 이번 케이스처럼 처벌받게 할 방법이 있는지 궁금함

    • 첫 번째 질문에는 “로그인 벽” 설정과 계약서 동의 절차로 가능하겠지만, 실제 손해배상 액수 등 구체적 계약 조항은 변호사가 검토해야 함

    • 사실 이 방식은 추천하고 싶지 않음
      이용자 스크립트처럼 어떤 자동화 툴도 침해 소지가 있을 수 있어서 문제임

    • DMCA 보안조치로 간주될 만한 캡차 시스템을 붙이는 방식도 있어 보임
      같은 콘텐츠를 유료 API로 제공하는 방법도 가능함

    • 법적으로나 기술적으로도 불가능하다고 생각함

    • 아마 시도는 해볼 수 있겠지만, 저작권에는 다양한 예외 조항이 있어 매우 복잡함
      예를 들어, “모든 사용 OK, 단 학계만 금지” 같은 조항을 걸어도 실제로 대학이 반드시 지켜야 할 의무는 없음
      법원이 이미 LLM 학습을 변형적 이용(transformative use)이라 판정한 경우, “LLM 학습만 금지” 조항을 넣어도 특별히 더 강하게 집행할 방법이 없음
      음악가가 “내 음악은 전체로만 듣고 샘플링 금지”라고 선언한다 해도 효과 없는 것과 마찬가지임
      저작권의 목적이 ‘학문과 유익한 예술의 촉진’이고, 학계의 접근성 보장이 저자 개인의 통제보다 중시되는 것임
      교과서도 저작권이 있고, 실제로 학술적 공정 이용 예외가 있다면 복제가 자유로울 수도 있는데 잘 지켜지지 않는 점도 혼란스러움

  • 국제적 관점에서 보면, 법적 제재나 합의가 각국마다 어떤 효력이 발생하는지, 다른 나라에서도 새로운 소송이 가능하고 추가 제재가 나올 수 있는지 궁금함

  • 중국 AI 업계에는 큰 이득처럼 느껴짐
    서구권 기업들은 데이터 수집과 학습에 제약이 많아지고, 중국이나 기타 국가 AI들은 훨씬 더 많은 데이터, 더 질 좋은 데이터를 활용할 수 있는 입장임