합법이면 공정한가: AI 재구현과 카피레프트의 침식

▲

GN⁺ 1달전 | parent | ★ favorite | on: 합법이면 공정한가: AI 재구현과 카피레프트의 침식(writings.hongminhee.org)

Hacker News 의견들

이제 명세(specification) 만으로 소스코드를 생성할 수 있다면, GPL 프로젝트의 핵심 지적 자산은 명세에 존재하게 됨
과거에는 기업 소프트웨어를 모방해도 법적으로 허용되도록 싸워왔는데, 지금은 그 권리를 스스로 포기하고 지식재산권자에게 더 많은 통제권을 주려는 상황임
이런 흐름은 반(反)대기업적이거나 공유 친화적인 결과로 이어지지 않을 것임. 결국 이 권력을 행사할 주체는 대기업일 것임
- 이건 예전에 있었던 Oracle vs Google API 소송과 매우 유사하게 들림
- 하지만 과거의 개발자들은 자신들의 작업물을 학습한 생성형 AI와 경쟁하지 않았음
  지금은 시대가 완전히 달라졌음. 인용된 주장은 이미 비판받은 논점을 반복하는 것임.
  이 논의에 동의한다면, 꼭 원문 기사를 직접 읽어보길 권함
내가 흥미롭게 보는 지점은, 이 현상이 단순히 저작권을 넘어 지식재산권(IP) 개념 자체를 무너뜨릴 수 있느냐는 것임
IP는 ‘창의성이 어렵다’는 전제 위에 세워졌는데, LLM은 이제 수학 증명, 신약 설계 등 거의 모든 지식 창출을 자동화하고 있음
그렇다면 더 이상 ‘어렵지 않은’ 창작물에 독점권을 줄 이유가 있을까? 결국 AI는 특허조차 단순한 제약 조건으로 처리하며 우회할 것임
- 그래도 인간이 만든 결과물에는 여전히 보호가 필요하다고 생각함
  현재 법적으로 AI 산출물은 저작권 보호 대상이 아님, 인간의 실질적 개입이 있어야만 보호받을 수 있음
  인간이 노력한 결과물은 대기업이 공짜로 가져가지 못하도록 보호해야 함
- 저작권은 노력의 양이 아니라 독창성과 표현에 관한 것임. 미국법은 ‘노력의 땀(Sweat of the Brow)’ 원칙을 인정하지 않음
- 이제 IP는 엘리트가 독점한 왜곡된 개념이 되었음. Disney의 Mickey Mouse 이후로 모든 게 내리막이었음
- 아마도 지금은 과도기일 뿐임. 예전엔 어려웠던 문제들이 쉬워지고, 우리는 더 어려운 문제로 눈을 돌릴 것임
  다만 그 문제를 푸는 주체가 인간이 아닐 수도 있음
- 사실 IP는 처음부터 숫자의 소유권이라는 모순된 개념이었음
  컴퓨터가 등장한 순간 이미 무의미해졌지만, 로비로 연명해왔음.
  이제 AI가 그 관짝에 마지막 못을 박을지도 모름.
  결국 중요한 건 모델의 가중치(weights) 이며, 모두가 접근할 수 있도록 공개되거나 강제로라도 풀려야 함
누군가 이걸 실제로 시험해봐야 함
유출된 Minecraft 소스코드를 Copilot에 입력해 다른 언어로 완전히 동일한 복제본을 만들고 오픈소스로 공개해보는 것임
과연 Microsoft가 그걸 저작권 침해라고 주장할지 궁금함
- 하지만 그건 단순한 포팅이라 침해 가능성이 높음.
  대신 “처음부터 Minecraft를 구현하라”고 해야 함.
  단, 텍스처나 모델을 재사용할 수 없으니 AI가 새로 생성해야 함
- 진짜 흥미로워질 건 AI가 바이너리 디컴파일까지 할 수 있게 될 때임
- 이런 방식이야말로 그들의 무기를 그들 자신에게 돌려주는 방법이라 생각함
- 핵심은, 학습 데이터에 저작권 있는 자료가 포함됐다면 그 출력물이 침해에 해당하느냐임
  네 예시는 훨씬 명확한 침해 가능성을 가진 사례임
- 지금 가장 중요한 질문임.
  만약 LLM을 이용해 유출된 Windows 소스코드의 라이선스를 제거하고 WINE용 코드를 만든다면?
  최근엔 LLM을 이용한 바이너리 디컴파일 시도도 활발히 논의되고 있음
오픈소스 진영의 두 인물이 논쟁에 참여했지만, 둘 다 IP 변호사는 아님
실제 변호사인 Richard Fontana가 참여했지만, 그의 이슈는 닫혔음
그는 GitHub 이슈에서 “AI 생성물은 일반적으로 저작권 보호 대상이 아니다”라고 지적했음
즉, 사람이 직접 코드를 수정하지 않고 프롬프트만 작성했다면, 그 코드에 MIT 라이선스를 붙이는 행위 자체가 큰 법적 함의를 가짐
- 하지만 나는 Fontana의 논리가 약하다고 봄
  오히려 사진 촬영과 비슷함. 카메라가 저작권을 갖진 않지만, 인간은 가질 수 있음
  픽셀 단위로 개입하지 않아도 인간의 창작으로 인정되는 것처럼 말임
GPL의 역사를 보면, 이는 저작권으로 저작권에 맞서는 시도였음
‘Copyleft’라는 이름 자체가 그 의미를 담고 있음
그런데 AI는 저작권 자체를 침식시키고 있음.
이제는 GPL 프로그램뿐 아니라 폐쇄형 소프트웨어도 AI로 재구현할 수 있음
그렇다면 GNU는 GPL을 버리고 LLM을 새로운 무기로 삼아야 함
- 하지만 고성능 LLM은 막대한 자본력이 필요한 기술임
  이는 오히려 오픈소스의 자유를 약화시키고, 대기업 중심으로 권력을 이동시킴
  또한 LLM은 수많은 자원봉사자의 코드로 학습했지만, 그 이익은 대기업이 가져감
  결국 오픈소스의 매력이 줄어들고, 라이선스 존중도 사라질 위험이 있음
- Copyleft는 저작권의 반대 개념이 아니라 소비자에게 권리를 부여하는 구조임
  특히 사용자가 자신의 기기에서 실행되는 소프트웨어를 수정할 권리를 보장함
  하지만 특정 도구나 키, 사양이 제한된 경우엔 재구현이 불가능함
- LLM이 정말 자유롭게 쓸 수 있는 도구인지 의문임
  결국 ‘악한 기업’의 무기를 빌려 싸우는 셈이 될 수도 있음
- 사실 지금의 LLM 자체가 ‘악한 소프트웨어 기업’의 구현체임
- 일반인이 쉽게 호스팅할 수 있는 오픈소스 LLM이 나오기 전까진, 진정한 소프트웨어 자유는 요원함
이미 라이선스 위반은 발생했다고 봄
대부분의 대형 모델이 데이터 수집 과정에서 서비스 약관을 어겼음
따라서 GPL 코드로 학습한 모델은 오픈 라이선스 의무를 감염(infect) 되었다고 볼 수 있음
- 하지만 학습 자체는 저작권 침해가 아님. 이는 공정 이용(fair use) 으로 간주됨
  법적으로 중요한 건 ① 데이터의 합법적 취득 여부, ② 출력물이 독창적 표현인지 여부임
  이번 사례에서는 98.7%가 새로운 코드로 확인됨
- 결국 법원 판결이 필요함. 다만 쟁점은 ‘공정 이용’의 원칙이 아니라 출력물의 변형성일 것임
- 이미 여러 판례에서 학습 행위 자체는 공정 이용으로 인정됨
  진짜 논점은 출력물이 얼마나 변형적이냐임.
  이는 NYT vs OpenAI 소송의 핵심 쟁점이기도 함
Blanchard가 “API와 테스트만 Claude에 입력해 새로 구현했다”고 했지만,
이는 “눈을 가리고 캔버스에 물감을 던졌는데 Mickey Mouse 모양이 나왔다”는 말과 비슷함
그는 원래 해당 코드의 유지보수자였기 때문에 완전히 독립적이라 보기 어려움
- 하지만 실제로 코드를 봤는지는 중요하지 않음
  원본 코드를 입력해 복제하도록 설정했다면, 그건 여전히 저작권 침해임
  AI가 단순한 도구라면 사용자 책임이고, 독립적 행위자라면 그 역시 침해 주체가 됨
- 나는 코드 재구현 자체는 합법적이고 윤리적으로도 괜찮다고 봄
  단, 표현 요소를 그대로 복사하지 않는 한에서만 가능함
- Oracle vs Google 사례처럼 API 재구현은 가능함
  Blanchard가 모든 프롬프트를 공개하면, 누구나 동일한 결과를 재현할 수 있을 것임
- 혹시 Blanchard가 실제로 그런 말을 했는지 인용문을 찾을 수 있나?
  내 이해로는 Claude가 코드를 보지 않았다는 주장뿐이었음
- 다만 Mickey Mouse는 상표권 문제이므로, 그 비유는 법적으로 맞지 않음
기사에 따르면 Claude는 API와 테스트만 입력받아 라이브러리를 재구현했음
그런데 GPL2는 테스트 스위트도 소스코드의 일부로 간주함
그렇다면 Claude가 테스트를 사용했다면, 결과물은 LGPL 2.1 기준으로 원본 기반의 2차 저작물일 수 있음
- 하지만 법적으로는 변형적 사용(transformative use) 으로 인정됨
  다만 테스트를 MIT 라이선스로 재배포하는 건 불가능할 수 있음
  따라서 코드만 MIT로 배포하고, 테스트는 LGPL로 병행 배포하는 식이 현실적임
- Google vs Oracle 판결에 따르면 API 사용은 공정 이용임
  테스트 케이스도 API 사용의 일부로 볼 수 있음
우리 회사에서는 보안팀이 승인하지 않는 툴을 쓰기 위해 AI 재구현을 활용하기 시작했음
보안팀은 ‘기본 거부’ 정책을, 엔지니어링팀은 ‘AI 적극 활용’ 정책을 가짐
결국 AI로 내부용 툴을 새로 만드는 이상한 인센티브 구조가 생김
다른 결과를 원한다면 인센티브 설계부터 바꿔야 함
- “Not Invented Here” 문화가 점점 내성(antibiotic resistance) 처럼 강화되고 있음
  만약 AI가 보안 관련 코드를 반복적으로 잘 작성할 수 있다면,
  왜 같은 AI가 제3자 소프트웨어의 보안 검증은 못 한다고 믿는가?
  생산과 분석의 비대칭이 존재하는 이유를 묻고 싶음
GPL의 조건은 배포(distribution) 시점에만 발동됨
수정된 코드를 배포하거나 네트워크 서비스로 제공할 때 소스를 공개해야 함
단, 네트워크 서비스 제공은 배포가 아니므로, 이를 보완하기 위해 AGPL이 만들어졌음