F/OSS를 LLM 훈련에서 막을 게 아니라, 훈련 결과 모델을 해방시켜야 한다는 주장
  • 최근 〈자유·오픈 소스 소프트웨어와 LLM 학습에 관해〉(On FLOSS and training LLMs) 글이 F/OSS 커뮤니티의 좌절감을 잘 표현 — AI 기업의 무례함, 법의 한계 등
  • 그러나 저자가 제안하는 크롤러 차단, GitHub 탈출, AI 도구 사용자 배척 같은 철수 전략은 중요한 기회를 놓치고 있음
문제는 훈련이 아니라 인클로저(enclosure)
  • 진짜 문제: 우리 코드로 LLM을 훈련하는 것 자체가 아니라, 그 결과가 독점 모델로 사유화되는 것
  • 이건 새로운 문제가 아님 — F/OSS가 여태 싸워온 그 문제
    • 공유지의 사유화
    • 집단 지식의 독점
    • 다수에서 소수로 흐르는 일방향 가치 흐름
GPL의 역사적 패턴: 새 기술 → 새 착취 → 새 라이선스

F/OSS 라이선싱은 기술 변화에 맞춰 계속 진화해 왔음:

  1. GPLv2 (1991) — 바이너리만 배포하는 걸 막음 → 소스 코드 공개 의무
  2. GPLv3 (2007) — Tivoization (하드웨어 락) 막음 → 설치 정보까지 요구
  3. AGPL (2007) — SaaS 허점 막음 → 네트워크 제공도 배포로 간주

지금은? 훈련 허점이 생김:

  • 기업들이 F/OSS 코드를 독점 모델의 훈련 데이터로 쓰지만
  • 모델을 공개하거나 훈련 출처를 밝힐 의무가 없음
  • 전형적인 착취 — 상호성 없는 가치 추출
해법: GPLv4 또는 TGPL (Training GPL) 같은 훈련 카피레프트

제안하는 조건들:

  • 훈련은 명시적으로 허용 (F/OSS 자유 원칙과 일치)
  • 하지만 결과 모델은 해방되어야 함 — 호환 가능한 카피레프트 라이선스로 가중치 공개
  • 훈련 데이터 문서화 의무
  • 파인튜닝된 모델도 의무 상속
  • 네트워크 사용 (API 제공)도 배포로 간주

→ GPLv3가 바이너리에 소스 코드를 요구하듯, 훈련 카피레프트는 훈련된 시스템에 모델 가중치를 요구

왜 철수보다 이게 중요한가

철수 전략의 문제점:

  1. 전장을 내줌 — OpenAI/Anthropic은 이미 필요한 걸 다 긁어감. 철수가 막는 건 Llama/Mistral 같은 오픈소스 LLM만 막음
  2. 문제를 잘못 짚음 — 기술 자체가 아니라 그것을 누가 어떻게 쓰느냐가 문제
  3. 커뮤니티 분열 — “비윤리적 도구” 사용자 배척? 어디까지가 사용인가? 순수성 테스트는 운동 분열에만 효과적
  4. F/OSS 핵심 전략 포기 — GPL의 천재성은 사용을 막지 않고 자유 전달을 요구한 것. 철수는 정반대 철학
현실 인식의 차이
  • antirez (Redis 창시자): LLM은 되돌릴 수 없다 → 적응하고 시장 경쟁 믿기
  • 원 글 저자: 저항 의미 있다 → 철수하고 접근 차단
  • 이 글: LLM은 되돌릴 수 없다 → 하지만 누가 소유하느냐가 핵심

질문은 LLM을 쓸 것이냐가 아니라:

  • 누가 모델을 소유하는가?
  • 모델을 훈련시킨 공유지로부터 누가 이득을 보는가?
  • 수백만 F/OSS 개발자의 기여 결과가 독점이어야 하나?

→ 집단 노동의 열매가 집단에 남느냐, 사유 재산이 되느냐의 문제

지금이 역사적 기회
  • 현재 AI 훈련과 모델 공개를 지배할 규범에 대한 대화가 진행 중
  • 커뮤니티 논의가 뜨거움
  • 오픈소스 AI 모델이 늘어나는 지금, 어떤 라이선스가 적용될지 아직 안 정해짐

F/OSS 개발자가 철수하면: 5년 후 기업과 기업 친화적 법원이 모든 규범 설정 → 훈련 허점 확립 → 오픈소스 AI 영구 불리

우리가 참여하면: 훈련 카피레프트 밀어붙이기 → 모델 해방 요구 라이선스로 코드 공개 → 우리가 미래를 만듦

결론 한 문장

크롤러를 차단하는 게 아니라 크롤하는 규칙을 바꿔야 한다. LLM을 거부하는 게 아니라 되찾아 와야 한다.

→ 유물사관적 관점: 새로운 생산력(LLM)은 새로운 생산관계(훈련 카피레프트)를 요구함
→ 리누스가 Linux를 GPL로 공개하며 “기업은 못 쓴다”가 아니라 “누구든 쓰되 개선하면 공유하라”고 한 것처럼
→ 코드가 모두의 것이듯, 그걸로 훈련한 AI 모델도 모두의 것이 되는 미래를 위해