14P by hongminhee | ★ favorite | 댓글 1개
F/OSS를 LLM 훈련에서 막을 게 아니라, 훈련 결과 모델을 해방시켜야 한다는 주장
  • 최근 〈자유·오픈 소스 소프트웨어와 LLM 학습에 관해〉(On FLOSS and training LLMs) 글이 F/OSS 커뮤니티의 좌절감을 잘 표현 — AI 기업의 무례함, 법의 한계 등
  • 그러나 저자가 제안하는 크롤러 차단, GitHub 탈출, AI 도구 사용자 배척 같은 철수 전략은 중요한 기회를 놓치고 있음
문제는 훈련이 아니라 인클로저(enclosure)
  • 진짜 문제: 우리 코드로 LLM을 훈련하는 것 자체가 아니라, 그 결과가 독점 모델로 사유화되는 것
  • 이건 새로운 문제가 아님 — F/OSS가 여태 싸워온 그 문제
    • 공유지의 사유화
    • 집단 지식의 독점
    • 다수에서 소수로 흐르는 일방향 가치 흐름
GPL의 역사적 패턴: 새 기술 → 새 착취 → 새 라이선스

F/OSS 라이선싱은 기술 변화에 맞춰 계속 진화해 왔음:

  1. GPLv2 (1991) — 바이너리만 배포하는 걸 막음 → 소스 코드 공개 의무
  2. GPLv3 (2007) — Tivoization (하드웨어 락) 막음 → 설치 정보까지 요구
  3. AGPL (2007) — SaaS 허점 막음 → 네트워크 제공도 배포로 간주

지금은? 훈련 허점이 생김:

  • 기업들이 F/OSS 코드를 독점 모델의 훈련 데이터로 쓰지만
  • 모델을 공개하거나 훈련 출처를 밝힐 의무가 없음
  • 전형적인 착취 — 상호성 없는 가치 추출
해법: GPLv4 또는 TGPL (Training GPL) 같은 훈련 카피레프트

제안하는 조건들:

  • 훈련은 명시적으로 허용 (F/OSS 자유 원칙과 일치)
  • 하지만 결과 모델은 해방되어야 함 — 호환 가능한 카피레프트 라이선스로 가중치 공개
  • 훈련 데이터 문서화 의무
  • 파인튜닝된 모델도 의무 상속
  • 네트워크 사용 (API 제공)도 배포로 간주

→ GPLv3가 바이너리에 소스 코드를 요구하듯, 훈련 카피레프트는 훈련된 시스템에 모델 가중치를 요구

왜 철수보다 이게 중요한가

철수 전략의 문제점:

  1. 전장을 내줌 — OpenAI/Anthropic은 이미 필요한 걸 다 긁어감. 철수가 막는 건 Llama/Mistral 같은 오픈소스 LLM만 막음
  2. 문제를 잘못 짚음 — 기술 자체가 아니라 그것을 누가 어떻게 쓰느냐가 문제
  3. 커뮤니티 분열 — “비윤리적 도구” 사용자 배척? 어디까지가 사용인가? 순수성 테스트는 운동 분열에만 효과적
  4. F/OSS 핵심 전략 포기 — GPL의 천재성은 사용을 막지 않고 자유 전달을 요구한 것. 철수는 정반대 철학
현실 인식의 차이
  • antirez (Redis 창시자): LLM은 되돌릴 수 없다 → 적응하고 시장 경쟁 믿기
  • 원 글 저자: 저항 의미 있다 → 철수하고 접근 차단
  • 이 글: LLM은 되돌릴 수 없다 → 하지만 누가 소유하느냐가 핵심

질문은 LLM을 쓸 것이냐가 아니라:

  • 누가 모델을 소유하는가?
  • 모델을 훈련시킨 공유지로부터 누가 이득을 보는가?
  • 수백만 F/OSS 개발자의 기여 결과가 독점이어야 하나?

→ 집단 노동의 열매가 집단에 남느냐, 사유 재산이 되느냐의 문제

지금이 역사적 기회
  • 현재 AI 훈련과 모델 공개를 지배할 규범에 대한 대화가 진행 중
  • 커뮤니티 논의가 뜨거움
  • 오픈소스 AI 모델이 늘어나는 지금, 어떤 라이선스가 적용될지 아직 안 정해짐

F/OSS 개발자가 철수하면: 5년 후 기업과 기업 친화적 법원이 모든 규범 설정 → 훈련 허점 확립 → 오픈소스 AI 영구 불리

우리가 참여하면: 훈련 카피레프트 밀어붙이기 → 모델 해방 요구 라이선스로 코드 공개 → 우리가 미래를 만듦

결론 한 문장

크롤러를 차단하는 게 아니라 크롤하는 규칙을 바꿔야 한다. LLM을 거부하는 게 아니라 되찾아 와야 한다.

→ 유물사관적 관점: 새로운 생산력(LLM)은 새로운 생산관계(훈련 카피레프트)를 요구함
→ 리누스가 Linux를 GPL로 공개하며 “기업은 못 쓴다”가 아니라 “누구든 쓰되 개선하면 공유하라”고 한 것처럼
→ 코드가 모두의 것이듯, 그걸로 훈련한 AI 모델도 모두의 것이 되는 미래를 위해

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

글의 내용에는 공감합니다. 그러나 어디서부터 무엇을 얼마나 싸울것이냐고 물어보면, 막막합니다.