합법이면 공정한가: AI 재구현과 카피레프트의 침식

(writings.hongminhee.org)

8P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Python 문자 인코딩 감지 라이브러리 chardet가 AI를 이용해 재구현되며 LGPL에서 MIT로 변경된 사례가 오픈소스 윤리 논쟁을 촉발함
AI 재구현의 합법성을 인정하는 의견이 나왔지만, 글은 법적 허용과 사회적 정당성은 다르다는 점을 강조함
GNU와 Linux의 역사적 재구현은 사유에서 자유로의 확장이었으나, 이번 사례는 공유지의 보호를 약화시키는 방향으로 작동함
GPL의 공유 조건은 제한이 아니라 상호적 공유를 보장하는 장치이며, MIT식 자유는 자본이 많은 쪽으로만 흐르는 비대칭적 구조를 초래함
AI가 카피레프트를 우회하기 쉬워진 시대일수록, 공유지로부터 얻은 자는 다시 공유지에 돌려줘야 한다는 원칙이 더욱 중요함

chardet 7.0의 AI 재구현과 라이선스 변경

Python의 chardet 라이브러리가 Anthropic의 Claude를 이용해 완전히 새로 작성됨
- 새 버전은 이전보다 48배 빠르고 멀티코어 지원을 추가
- 코드 유사도는 1.3% 미만으로 측정되어 독립적 저작물로 간주됨
기존 LGPL 라이선스에서 MIT 라이선스로 변경되어, 소스 공개 의무가 사라짐
원 저자 Mark Pilgrim은 GitHub 이슈를 통해 LGPL 위반 가능성을 제기
- AI가 기존 코드 기반에 노출된 상태에서의 재구현은 ‘클린룸’ 방식으로 보기 어렵다는 주장

오픈소스 인사들의 상반된 반응

Armin Ronacher(Flask 창시자) 는 재라이선스를 환영하며, GPL이 공유 정신에 반한다고 주장
Salvatore Sanfilippo(antirez, Redis 창시자) 는 AI 재구현의 합법성을 옹호하며 GNU 역사와 저작권법을 근거로 제시
두 사람 모두 법적 허용을 정당성으로 등치하지만, 글은 법과 윤리의 간극을 문제로 제시

GNU 역사와 방향성의 차이

GNU의 재구현은 사유 소프트웨어를 자유 소프트웨어로 전환하는 과정이었음
- 법적 허용이 아니라 공유지 확장이라는 윤리적 방향성이 핵심이었음
반면 chardet 사례는 카피레프트 보호를 제거하고, 공유지의 울타리를 해체하는 방향으로 작동
- chardet 7.0을 기반으로 한 파생물은 더 이상 소스 공개 의무를 지지 않음
antirez는 이 방향성의 반대성을 간과하고, GNU의 전례를 잘못된 근거로 사용함

GPL과 공유의 의미

Ronacher는 GPL이 공유를 제한한다고 주장하지만, 글은 이를 근본적 오해로 지적
- GPL은 배포 시에만 소스 공개를 요구하며, 개인적 사용에는 제약이 없음
- 이는 공유의 상호성을 보장하는 장치로, 공유를 억제하는 것이 아님
MIT 라이선스는 코드 수취자는 자유롭지만, 기여를 되돌려줄 의무가 없음
- 결과적으로 자본과 인력이 많은 쪽으로만 혜택이 집중되는 구조
1990년대 GPL 코드가 기업에 흡수되던 사례는 카피레프트 강화의 필요성을 보여줌

자기모순적 사례: Vercel과 Cloudflare

Vercel이 AI로 GNU Bash를 재구현한 뒤, Cloudflare가 Next.js를 재구현하자 불쾌감을 표출
Next.js는 MIT 라이선스이므로 법적 문제는 없었음
이는 “GPL을 MIT로 바꾸는 건 공유의 승리”라면서도, 자신의 코드가 재구현되면 반발하는 모순을 드러냄
Ronacher는 이를 인정하면서도 결론을 바꾸지 않아, 논리보다 입장에 맞춘 결론으로 평가됨

합법성과 정당성의 구분

법은 금지하지 않는 행위를 규정할 뿐, 옳음을 보증하지 않음
- 세금 회피나 약값 인상처럼 합법이지만 비사회적 행위가 존재
chardet의 LGPL은 단순한 법적 장치가 아니라 12년간의 사회적 약속이었음
- “이 코드를 사용하면 같은 조건으로 공유한다”는 신뢰 기반의 계약
AI 재구현이 법적으로 새 작품이라 해도, 기여자들과의 신뢰를 깨뜨린 행위임
FSF의 Zoë Kooyman은 “자신이 받은 권리를 타인에게 주지 않는 것은 비사회적 행위”라고 명시

시각의 비대칭성

antirez와 Ronacher는 중심적 오픈소스 인물로, AI 재구현이 자신들에게 유리한 환경을 의미
반면 chardet 기여자들에게는 기여 보호의 상실로 작용
이 비대칭을 무시한 채 “법적으로 문제없다”고 말하는 것은 분석이 아니라 합리화로 평가됨

카피레프트의 미래와 사회적 판단

Bruce Perens는 “소프트웨어 개발의 경제학이 끝났다”고 경고
- antirez는 “적응해야 한다”, Ronacher는 “흥미롭다”고 반응
그러나 핵심은 “카피레프트가 우회되기 쉬워질수록 더 필요해지는가”라는 질문
- 글은 “그렇다”고 단언
GPL은 코드의 희소성이 아니라 사용자의 자유를 보호
- AI로 재구현이 쉬워질수록 카피레프트 제거의 마찰도 줄어듦
“공유지에서 얻은 자는 공유지에 돌려줘야 한다”는 원칙은 시간이나 기술 변화와 무관한 사회적 규범
법은 느리게 변하지만, 공동체의 가치 판단이 먼저 움직여 왔음
- GPLv2→v3→AGPL로의 진화도 법보다 공동체의 판단이 선행
AI 시대에는 테스트 스위트와 API 명세까지 카피레프트 보호 대상으로 확장해야 함
결론적으로, 법적 판결이 아니라 사회적 판단이 먼저 내려져야 하며,
합법성은 정당성을 대체할 수 없음을 강조함

GN⁺ 3달전 [-]

Hacker News 의견들

이제 명세(specification) 만으로 소스코드를 생성할 수 있다면, GPL 프로젝트의 핵심 지적 자산은 명세에 존재하게 됨
과거에는 기업 소프트웨어를 모방해도 법적으로 허용되도록 싸워왔는데, 지금은 그 권리를 스스로 포기하고 지식재산권자에게 더 많은 통제권을 주려는 상황임
이런 흐름은 반(反)대기업적이거나 공유 친화적인 결과로 이어지지 않을 것임. 결국 이 권력을 행사할 주체는 대기업일 것임
- 이건 예전에 있었던 Oracle vs Google API 소송과 매우 유사하게 들림
- 하지만 과거의 개발자들은 자신들의 작업물을 학습한 생성형 AI와 경쟁하지 않았음
  지금은 시대가 완전히 달라졌음. 인용된 주장은 이미 비판받은 논점을 반복하는 것임.
  이 논의에 동의한다면, 꼭 원문 기사를 직접 읽어보길 권함
내가 흥미롭게 보는 지점은, 이 현상이 단순히 저작권을 넘어 지식재산권(IP) 개념 자체를 무너뜨릴 수 있느냐는 것임
IP는 ‘창의성이 어렵다’는 전제 위에 세워졌는데, LLM은 이제 수학 증명, 신약 설계 등 거의 모든 지식 창출을 자동화하고 있음
그렇다면 더 이상 ‘어렵지 않은’ 창작물에 독점권을 줄 이유가 있을까? 결국 AI는 특허조차 단순한 제약 조건으로 처리하며 우회할 것임
- 그래도 인간이 만든 결과물에는 여전히 보호가 필요하다고 생각함
  현재 법적으로 AI 산출물은 저작권 보호 대상이 아님, 인간의 실질적 개입이 있어야만 보호받을 수 있음
  인간이 노력한 결과물은 대기업이 공짜로 가져가지 못하도록 보호해야 함
- 저작권은 노력의 양이 아니라 독창성과 표현에 관한 것임. 미국법은 ‘노력의 땀(Sweat of the Brow)’ 원칙을 인정하지 않음
- 이제 IP는 엘리트가 독점한 왜곡된 개념이 되었음. Disney의 Mickey Mouse 이후로 모든 게 내리막이었음
- 아마도 지금은 과도기일 뿐임. 예전엔 어려웠던 문제들이 쉬워지고, 우리는 더 어려운 문제로 눈을 돌릴 것임
  다만 그 문제를 푸는 주체가 인간이 아닐 수도 있음
- 사실 IP는 처음부터 숫자의 소유권이라는 모순된 개념이었음
  컴퓨터가 등장한 순간 이미 무의미해졌지만, 로비로 연명해왔음.
  이제 AI가 그 관짝에 마지막 못을 박을지도 모름.
  결국 중요한 건 모델의 가중치(weights) 이며, 모두가 접근할 수 있도록 공개되거나 강제로라도 풀려야 함
누군가 이걸 실제로 시험해봐야 함
유출된 Minecraft 소스코드를 Copilot에 입력해 다른 언어로 완전히 동일한 복제본을 만들고 오픈소스로 공개해보는 것임
과연 Microsoft가 그걸 저작권 침해라고 주장할지 궁금함
- 하지만 그건 단순한 포팅이라 침해 가능성이 높음.
  대신 “처음부터 Minecraft를 구현하라”고 해야 함.
  단, 텍스처나 모델을 재사용할 수 없으니 AI가 새로 생성해야 함
- 진짜 흥미로워질 건 AI가 바이너리 디컴파일까지 할 수 있게 될 때임
- 이런 방식이야말로 그들의 무기를 그들 자신에게 돌려주는 방법이라 생각함
- 핵심은, 학습 데이터에 저작권 있는 자료가 포함됐다면 그 출력물이 침해에 해당하느냐임
  네 예시는 훨씬 명확한 침해 가능성을 가진 사례임
- 지금 가장 중요한 질문임.
  만약 LLM을 이용해 유출된 Windows 소스코드의 라이선스를 제거하고 WINE용 코드를 만든다면?
  최근엔 LLM을 이용한 바이너리 디컴파일 시도도 활발히 논의되고 있음
오픈소스 진영의 두 인물이 논쟁에 참여했지만, 둘 다 IP 변호사는 아님
실제 변호사인 Richard Fontana가 참여했지만, 그의 이슈는 닫혔음
그는 GitHub 이슈에서 “AI 생성물은 일반적으로 저작권 보호 대상이 아니다”라고 지적했음
즉, 사람이 직접 코드를 수정하지 않고 프롬프트만 작성했다면, 그 코드에 MIT 라이선스를 붙이는 행위 자체가 큰 법적 함의를 가짐
- 하지만 나는 Fontana의 논리가 약하다고 봄
  오히려 사진 촬영과 비슷함. 카메라가 저작권을 갖진 않지만, 인간은 가질 수 있음
  픽셀 단위로 개입하지 않아도 인간의 창작으로 인정되는 것처럼 말임
GPL의 역사를 보면, 이는 저작권으로 저작권에 맞서는 시도였음
‘Copyleft’라는 이름 자체가 그 의미를 담고 있음
그런데 AI는 저작권 자체를 침식시키고 있음.
이제는 GPL 프로그램뿐 아니라 폐쇄형 소프트웨어도 AI로 재구현할 수 있음
그렇다면 GNU는 GPL을 버리고 LLM을 새로운 무기로 삼아야 함
- 하지만 고성능 LLM은 막대한 자본력이 필요한 기술임
  이는 오히려 오픈소스의 자유를 약화시키고, 대기업 중심으로 권력을 이동시킴
  또한 LLM은 수많은 자원봉사자의 코드로 학습했지만, 그 이익은 대기업이 가져감
  결국 오픈소스의 매력이 줄어들고, 라이선스 존중도 사라질 위험이 있음
- Copyleft는 저작권의 반대 개념이 아니라 소비자에게 권리를 부여하는 구조임
  특히 사용자가 자신의 기기에서 실행되는 소프트웨어를 수정할 권리를 보장함
  하지만 특정 도구나 키, 사양이 제한된 경우엔 재구현이 불가능함
- LLM이 정말 자유롭게 쓸 수 있는 도구인지 의문임
  결국 ‘악한 기업’의 무기를 빌려 싸우는 셈이 될 수도 있음
- 사실 지금의 LLM 자체가 ‘악한 소프트웨어 기업’의 구현체임
- 일반인이 쉽게 호스팅할 수 있는 오픈소스 LLM이 나오기 전까진, 진정한 소프트웨어 자유는 요원함
이미 라이선스 위반은 발생했다고 봄
대부분의 대형 모델이 데이터 수집 과정에서 서비스 약관을 어겼음
따라서 GPL 코드로 학습한 모델은 오픈 라이선스 의무를 감염(infect) 되었다고 볼 수 있음
- 하지만 학습 자체는 저작권 침해가 아님. 이는 공정 이용(fair use) 으로 간주됨
  법적으로 중요한 건 ① 데이터의 합법적 취득 여부, ② 출력물이 독창적 표현인지 여부임
  이번 사례에서는 98.7%가 새로운 코드로 확인됨
- 결국 법원 판결이 필요함. 다만 쟁점은 ‘공정 이용’의 원칙이 아니라 출력물의 변형성일 것임
- 이미 여러 판례에서 학습 행위 자체는 공정 이용으로 인정됨
  진짜 논점은 출력물이 얼마나 변형적이냐임.
  이는 NYT vs OpenAI 소송의 핵심 쟁점이기도 함
Blanchard가 “API와 테스트만 Claude에 입력해 새로 구현했다”고 했지만,
이는 “눈을 가리고 캔버스에 물감을 던졌는데 Mickey Mouse 모양이 나왔다”는 말과 비슷함
그는 원래 해당 코드의 유지보수자였기 때문에 완전히 독립적이라 보기 어려움
- 하지만 실제로 코드를 봤는지는 중요하지 않음
  원본 코드를 입력해 복제하도록 설정했다면, 그건 여전히 저작권 침해임
  AI가 단순한 도구라면 사용자 책임이고, 독립적 행위자라면 그 역시 침해 주체가 됨
- 나는 코드 재구현 자체는 합법적이고 윤리적으로도 괜찮다고 봄
  단, 표현 요소를 그대로 복사하지 않는 한에서만 가능함
- Oracle vs Google 사례처럼 API 재구현은 가능함
  Blanchard가 모든 프롬프트를 공개하면, 누구나 동일한 결과를 재현할 수 있을 것임
- 혹시 Blanchard가 실제로 그런 말을 했는지 인용문을 찾을 수 있나?
  내 이해로는 Claude가 코드를 보지 않았다는 주장뿐이었음
- 다만 Mickey Mouse는 상표권 문제이므로, 그 비유는 법적으로 맞지 않음
기사에 따르면 Claude는 API와 테스트만 입력받아 라이브러리를 재구현했음
그런데 GPL2는 테스트 스위트도 소스코드의 일부로 간주함
그렇다면 Claude가 테스트를 사용했다면, 결과물은 LGPL 2.1 기준으로 원본 기반의 2차 저작물일 수 있음
- 하지만 법적으로는 변형적 사용(transformative use) 으로 인정됨
  다만 테스트를 MIT 라이선스로 재배포하는 건 불가능할 수 있음
  따라서 코드만 MIT로 배포하고, 테스트는 LGPL로 병행 배포하는 식이 현실적임
- Google vs Oracle 판결에 따르면 API 사용은 공정 이용임
  테스트 케이스도 API 사용의 일부로 볼 수 있음
우리 회사에서는 보안팀이 승인하지 않는 툴을 쓰기 위해 AI 재구현을 활용하기 시작했음
보안팀은 ‘기본 거부’ 정책을, 엔지니어링팀은 ‘AI 적극 활용’ 정책을 가짐
결국 AI로 내부용 툴을 새로 만드는 이상한 인센티브 구조가 생김
다른 결과를 원한다면 인센티브 설계부터 바꿔야 함
- “Not Invented Here” 문화가 점점 내성(antibiotic resistance) 처럼 강화되고 있음
  만약 AI가 보안 관련 코드를 반복적으로 잘 작성할 수 있다면,
  왜 같은 AI가 제3자 소프트웨어의 보안 검증은 못 한다고 믿는가?
  생산과 분석의 비대칭이 존재하는 이유를 묻고 싶음
GPL의 조건은 배포(distribution) 시점에만 발동됨
수정된 코드를 배포하거나 네트워크 서비스로 제공할 때 소스를 공개해야 함
단, 네트워크 서비스 제공은 배포가 아니므로, 이를 보완하기 위해 AGPL이 만들어졌음

답변달기

합법이면 공정한가: AI 재구현과 카피레프트의 침식

chardet 7.0의 AI 재구현과 라이선스 변경

오픈소스 인사들의 상반된 반응

GNU 역사와 방향성의 차이

GPL과 공유의 의미

자기모순적 사례: Vercel과 Cloudflare

합법성과 정당성의 구분

시각의 비대칭성

카피레프트의 미래와 사회적 판단

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들