1P by GN⁺ 12시간전 | ★ favorite | 댓글 1개
  • 오픈소스 프로젝트 chardet v7.0.0이 AI 도구를 이용해 전체 코드를 다시 작성하고 LGPL에서 MIT로 라이선스를 변경
  • 원 저자는 이 과정이 GPL 위반 가능성이 있다고 주장하며, AI가 원본 코드를 학습한 상태에서 생성한 결과물은 ‘클린룸 구현’이 아님을 지적
  • 전통적 클린룸 방식은 두 팀이 분리되어야 하지만, AI가 이 벽을 우회함으로써 파생 저작물 여부가 쟁점이 됨
  • 동시에 미국 대법원이 AI 생성물의 저작권을 인정하지 않음으로써, 새 코드의 소유권과 라이선스 효력이 모호해짐
  • 이러한 사례가 인정될 경우, Copyleft 체계가 무력화될 위험이 제기됨

chardet 프로젝트의 AI 기반 재작성과 라이선스 변경

  • Python 문자 인코딩 감지 라이브러리 chardet은 원래 Mozilla의 C++ 코드를 포팅한 것으로 LGPL에 묶여 있었음
    • 이로 인해 기업 사용자가 법적 불확실성을 겪었음
  • 유지관리자들은 Claude Code를 이용해 전체 코드를 다시 작성하고 v7.0.0MIT 라이선스로 배포함
  • 원 저자 a2mark는 이 조치가 LGPL 위반이라고 주장
    • 수정된 코드는 여전히 LGPL을 따라야 하며, “완전한 재작성”이라는 주장은 원본 코드에 노출된 상태에서 생성된 결과물이므로 무효라고 지적
    • AI 코드 생성이 추가 권리를 부여하지 않는다고 명시

클린룸 구현과 AI의 우회

  • 전통적 클린룸 재작성(clean room rewrite) 은 두 팀으로 구성됨
    • 팀 A는 원본 코드를 분석해 기능 명세서를 작성
    • 팀 B는 원본을 보지 않고 명세서만으로 새 코드를 작성
  • 그러나 AI가 원본 LGPL 코드를 입력받아 생성한 경우, 이 절차적 분리가 사라짐
  • AI가 원본 코드로부터 학습해 결과를 생성했다면, 그 산출물은 LGPL 파생 저작물로 간주될 수 있음

미국 대법원의 판결과 법적 역설

  • 2026년 3월 2일, 미국 대법원은 AI 생성물의 저작권 인정 여부에 대한 항소를 기각
    • 하급심의 ‘인간 저작자 요건(Human Authorship)’ 판결이 유지됨
  • 이로 인해 chardet 유지관리자들은 세 가지 법적 모순에 직면
    • 저작권 공백: AI 생성물이 저작권 보호를 받지 못한다면, MIT로 재라이선스할 법적 근거가 없음
    • 파생물 함정: AI 출력물이 원본 LGPL 코드의 파생물이라면, 이는 라이선스 위반
    • 소유권 공백: AI가 완전히 새 코드를 생성했다면, 생성 즉시 퍼블릭 도메인이 되어 MIT 라이선스 자체가 무의미해짐

Copyleft 체계에 대한 잠재적 영향

  • AI 재작성으로 라이선스를 변경하는 방식이 허용된다면, Copyleft의 근간이 붕괴될 가능성이 있음
  • 누구나 GPL 프로젝트를 LLM에 입력해 “다른 스타일로 다시 작성하라”고 요청한 뒤 MIT 라이선스로 배포할 수 있게 됨
  • chardet v7.0.0 사례는 이러한 법적·윤리적 경계가 처음으로 시험되는 실제 사례로 평가됨
Hacker News 의견들
  • 유지자의 응답을 보면, Claude에게 LGPL/GPL 코드를 참고하지 말라고 명시했지만, 모델이 이미 그 코드로 학습되었을 가능성이 높음
    LLM이 학습 데이터의 영향을 완전히 “잊는” 것은 현재 불가능하다고 알려져 있음
    관련 연구로 이 프로젝트가 있음
    나는 개발자이자 지식재산권 변호사로, 이런 문제는 미국 법원에서도 계속 진화 중임
    참고로 Anthropic의 유료 엔터프라이즈 플랜은 저작권 침해 시 사용자를 면책하지만, 무료/Pro/Max 플랜은 반대로 사용자가 Anthropic을 면책해야 함 (약관 11항)

    • 유지자가 “처음부터 새로 작성했다”고 주장하지만, 실제로는 chardet의 테스트 데이터를 그대로 사용했고, 10년 넘게 원본 코드를 유지해온 사람임
      완전한 클린룸 구현(clean-room implementation) 이 되려면 원본을 아는 사람과 새로 작성하는 사람을 분리해야 하는데, 이 경우엔 그렇지 않았음
    • 비슷한 주제로 이 스레드에서도 논의가 있었음
    • 학습 중 특정 토큰을 무작위로 마스킹하는 방식으로 원문을 그대로 암기하지 않게 하는 연구가 있었음
      의미는 유지하면서도 단어 일부를 제거해 직접 인용을 방지하는 아이디어였음
    • 유료 플랜별 면책 조항 차이가 중요하다는 점을 처음 알게 되어 유용했음
  • 이 글은 “클린룸 구현”의 의미를 오해하고 있음
    단순히 “원본 코드를 안 보면 된다”가 아니라, API 사양으로부터 독립적으로 구현해야 함
    LLM이 생성한 코드는 원본과 유사할 확률이 높아, 법적으로 복제물로 간주될 위험이 큼
    chardet 유지자의 행위는 법적으로 무책임한 재라이선스로 보이며, 향후 공급망 문제를 일으킬 가능성이 있음

    • 두 사람이 독립적으로 같은 코드를 만들었다면 각자 저작권을 가질 수 있다는 법률 해설을 인용하며 반박함
    • 저작권은 정보의 흐름이 있을 때만 복제가 성립함
      단순히 같은 결과가 나왔다면, 그것은 기능적 결과일 뿐 저작권 침해가 아님
    • Google vs Oracle 사례처럼 API 기반 구현도 법적 위험이 있음
      위키 문서 참고
    • IBM PC BIOS의 Phoenix 클린룸 사례처럼, 원본을 안 보고 새로 작성하면 합법이라는 선례도 있음
    • 완전한 CRRE(clean-room reverse engineering) 절차를 따르면, 코드가 1:1로 같더라도 법적으로 복제가 아님
      다만 실제 재판에서는 유사성이 높으면 방어가 어려움
      chardet 사례는 일본 폰트 저작권 논란처럼, 실질적 침해가 아니더라도 배포 중단으로 이어질 수 있음
  • “LGPL 코드는 여전히 LGPL”임
    모든 원저작자가 명시적으로 동의하지 않는 한, 라이선스 변경은 불가능
    AI가 코드를 변환했다고 해서 저작권이 사라지는 것은 아님
    그렇다면 미국 저작권 산업 전체가 무너질 것임

    • 법적으로 “LGPL 코드”라는 속성이 따로 존재하는 게 아니라, 복제 행위의 허용 여부가 핵심임
      허락 없이 파생 저작물을 만든 사람이 다시 허락을 주는 건 복잡한 문제임
    • SCOTUS 판결은 오히려 AI가 만든 결과물에 창작성이 없다고 본다는 점에서, 원저작자의 권리를 강화하는 방향임
    • 완전한 AI 기반 클린룸 재작성이라면 사실상 퍼블릭 도메인으로 볼 수도 있지만, 실제로 그렇게 된 경우는 드묾
  • 생성형 AI로 인해 저작권 체계가 시대에 뒤처짐
    과거의 법은 단일 목적 모델을 전제로 했지만, 지금은 모든 소스와 경쟁 가능한 모델이 등장함
    GNU의 라이선스 전략도 코드 희소성을 전제로 했는데, 이제는 코드 생성이 너무 쉬워져 의미가 약해짐

    • AI가 원본 코드를 입력받아 “다시 써달라”고 하면 파생 저작물이지만, 단순히 기능 설명만 주면 새 창작물임
      소송 시 Claude 로그가 증거로 쓰일 수 있음
    • “법을 깨면서 방정식을 바꾼 것”이라는 비판도 있음
    • 아이디어는 보호되지 않지만, 표현은 보호된다는 기존 전제가 AI 시대엔 흔들림
      이제는 아이디어보다 표현 생성이 쉬워진 시대
    • 오히려 이런 변화가 저작권 독점 구조를 무너뜨리는 긍정적 신호라는 의견도 있음
    • GNU의 목표는 라이선스가 아니라 사용자의 자유였음
      AI로 누구나 코드를 만들 수 있는 세상은 오히려 GNU가 꿈꾸던 이상향에 가까움
  • AI가 만든 코드가 진정한 새 창작물이라면, 생성 즉시 퍼블릭 도메인이 될 수도 있다는 주장에 의문을 제기함
    모델이 어떤 데이터를 학습했는지 알 수 없으므로, 이는 역공학에 해당할 수 있음
    따라서 가장 제한적인 라이선스를 적용해야 하며, AI 기업이 원저작자에게 수익을 환원해야 한다고 주장함

    • 그렇게 되면 “All Rights Reserved”가 적용되어 AI 출력물을 사용할 수 없게 됨
      실제로 허용된 데이터만 학습한 모델은 성능이 매우 낮음
      만약 AI 생성물이 모두 파생 저작물로 간주된다면, 모든 오픈소스 프로젝트가 오염되어버릴 것임
    • AI가 원본을 거의 그대로 복제하지 않는 한, 미국 법원은 학습 데이터의 저작권을 문제 삼지 않음
      결국 사람이 아닌 누구도 소유권을 주장할 수 없는 상태가 되면 사실상 퍼블릭 도메인으로 취급됨
    • 차라리 모든 LLM 생성 코드를 GPL v3로 간주해버리자는 농담 섞인 제안도 있었음
    • Disney의 이익이 침해될 때쯤에야 법이 바뀔 거라는 냉소적 의견도 있었음
    • AI가 원본 코드를 직접 사용했는지, 중간 표현을 통해 재작성했는지에 따라 법적 책임이 달라질 것임
  • 관련 논의로 “No right to relicense this project”라는 다른 스레드가 있음

    • 그건 단순히 도용된 프로젝트로 보이며, 이번 chardet 사례는 AI 재작성의 정당성이 핵심임
  • AI가 만든 코드가 퍼블릭 도메인이라면, MIT 라이선스 자체가 무의미하다는 주장에 반박함
    AI 생성물은 단순 복사와 다르며, 여전히 원본의 라이선스 제약을 받음

    • AI가 만든 결과물은 법적으로 저작물로 인정되지 않기 때문에, 누구도 라이선스를 부여할 수 없음
      예를 들어 Project Gutenberg로 학습한 시 생성기도 저작권을 주장할 수 없음
    • 하지만 코드의 경우엔 아직 법적 기준이 불명확
      매크로나 코드 생성 도구, Intellisense 같은 자동화 기능은 어디까지가 “AI 생성”인지 경계가 모호함
    • “copywrite”가 아니라 “copyright” 가 올바른 용어라는 교정도 있었음
    • AI 생성물도 인간이 창의적으로 개입했다면 저작권이 인정될 수 있다는 의견도 있음
  • 과거 chardet을 Python 표준 라이브러리에 포함하려는 논의가 있었지만
    이번 라이선스 변경 논란으로 인해 그 가능성은 사라졌다고 봄
    관련 논의는 이 이슈
    유지자의 발언1, 발언2 참고

  • 이런 방식의 AI 재라이선스는 오픈소스, 특히 Copyleft의 종말을 의미할 수 있음
    라이선스가 더 이상 보호 기능을 하지 못하면, 개발자들은 폐쇄형 개발로 돌아갈 것임

    • 나도 그래서 오픈소스 공개를 완전히 중단했음
      최신 모델들이 WebAssembly 역공학까지 가능해져, 마치 다크 포레스트 이론처럼 느껴짐
    • 이는 오픈소스뿐 아니라 모든 소스 공개 프로젝트에 해당함
    • GPL의 목적은 “원치 않는 사용을 막는 것”이 아니라, 수정 시 소스 공개를 요구하는 것임
      AI 재작성물이 GPL이라면, 그 역시 공개되어야 함
    • “자유 소프트웨어”를 닫겠다는 건 애초에 자유의 철학과 모순된다는 반론도 있었음
  • “AI 재작성으로 라이선스를 바꿀 수 있다면, 저작권 전체가 무너진다”는 결론에 동의함
    영화, 음악, 소설 등 모든 창작물에 적용될 수 있기 때문임
    결국 법원은 이런 시도를 저작권 회피로 인정하지 않을 것이며,
    chardet 프로젝트는 거대한 법적 파도 앞에서 실험대상이 되지 않길 바람