4월 24일까지 거부하지 않으면 GitHub이 개인 저장소로 AI 학습을 진행함
(news.ycombinator.com)- GitHub이 개인 저장소의 코드와 데이터를 AI 모델 학습에 활용할 계획
- 사용자는 4월 24일 이전에 명시적으로 거부(opt-out) 해야 데이터 사용을 차단할 수 있음
- 거부하지 않을 경우 비공개 프로젝트 정보가 학습 데이터에 포함될 수 있음
- 해당 정책은 GitHub Copilot 등 AI 기능 향상을 위한 데이터 수집과 연관됨
- 개발자는 개인 정보 보호 및 코드 보안을 위해 설정 확인이 필요함
GitHub의 AI 학습 데이터 정책 변경
- GitHub이 AI 모델 개선 목적으로 개인 저장소 데이터를 학습에 포함할 수 있도록 정책을 변경함
- 사용자가 별도로 거부하지 않으면 자동으로 데이터가 활용됨
- 거부는 GitHub 설정 페이지에서 직접 수행 가능함
- 학습 데이터에는 비공개 코드, 프로젝트 메타데이터, 커밋 기록 등이 포함될 가능성이 있음
- 이 조치는 Copilot 및 기타 AI 기능의 품질 향상을 위한 것으로 설명됨
개발자에게 미치는 영향
- 개인 저장소가 학습에 사용될 경우 민감한 코드나 내부 로직 노출 위험이 존재함
- 기업 및 개인 개발자는 보안 정책 검토와 opt-out 절차 수행이 필요함
- GitHub의 이번 변경은 AI 학습 데이터의 투명성과 사용자 통제권에 대한 논의로 이어질 가능성 있음
Hacker News 의견들
-
2023년부터 계속 말해왔음. 데이터베이스에 저장된 정보가 회사가 자유롭게 접근할 수 있는 형태라면, 결국 그 회사는 AI 학습용 데이터로 활용할 수 있도록 약관을 바꿀 것임. 인센티브가 너무 강해서 피할 수 없다고 생각함
- 맞는 말임. 아무리 윤리적인 회사라도 인수되면 상황이 바뀔 수 있음. 나는 SP500 기업에서 일하는데, 지금은 프로덕션 접근이 철저히 통제되어 있음. 하지만 Larry나 Zuck, Bezos 같은 사람이 회사를 사버리면 어떻게 될지 모름
- “먼저 하고 나중에 사과한다”는 게 일반적인 원칙이 될 것 같음. ToS를 바꾸지 않아도 실제로는 그렇게 할 수 있음. Amazon은 이미 거대한 사내 학습 데이터셋을 갖고 있음
- MS가 내 노트북에서 작성한 코드를 AI 학습에 쓰는 게 아닐까 걱정됨. 예전엔 음모론처럼 들렸던 리눅스 사용자들의 불신이 점점 이해되기 시작함
- 네 말이 맞음. 사람들이 그걸 너무 당연하게 여기지 못하는 게 답답함. Stallman은 항상 옳았음
- 키를 직접 소유하지 않는 한, 그건 종단 간 암호화가 아님. 헛소리를 피해야 함
-
“그렇지 않다”고 주장하며 GitHub 공식 블로그 링크를 공유함. Free, Pro, Pro+ Copilot 사용자는 opt-out하지 않으면 사용 데이터가 모델 학습에 쓰임. Business나 Pro 구독자는 학습에 포함되지 않음. Copilot을 사용하지 않으면 영향 없음. 지금 미리 opt-out하면 나중에 설정이 유지됨
- 블로그에 따르면 수집되는 데이터는 입력, 출력, 코드 컨텍스트, 주석, 파일 구조, 피드백 등임. 하지만 “참여를 원하면”이 아니라 “참여하지 않으면”으로 되어 있음. 즉, 참여 거부를 직접 해야 하는 구조라 불만임. 내 프라이버시를 지키기 위해 내가 수고해야 하는 건 부당함
- 세부 표현이 너무 모호하게 쪼개짐. Copilot이 입력과 출력, 코드 컨텍스트를 학습에 쓴다면, 결국 private repo의 코드 일부가 학습 데이터로 사용된다는 뜻임
- 제목과 답변 모두 너무 포괄적임. 4월 24일부터 Business/Pro가 아닌 사용자의 private repo가 기본적으로 학습에 포함됨. 모든 repo가 해당되는 건 아니지만, 언어 선택이 신중해야 함. “No we won’t”보다는 “완전히 정확하진 않다”가 더 적절했음
- 그래도 여전히 심각한 문제임. 코드가 LLM 학습에 들어가면 더 이상 private이 아님. “private repo”라고 써놓고 약관에 작은 글씨로 “공개될 수 있다”고 적는 건 거짓말임
- EU 법에서는 opt-out 방식이 유효한 동의로 인정되지 않음. 이걸 어떻게 처리할 계획인지 궁금함
-
이 뉴스의 제목은 오해의 소지가 있음. GitHub이 private repo 자체를 학습하는 게 아니라, Copilot 사용 중 발생하는 상호작용 데이터를 학습함. Copilot을 쓰지 않으면 영향 없음. 그래도 꺼두는 게 좋음
- 그런데 내 기여자 중 한 명이 Copilot을 쓰면 어떻게 되는지 궁금함
- 나도 그렇게 이해했지만, 입력을 학습한다면 코드 자체를 학습하지 않는다고 보장할 수 없음. 법정에서는 “입력만 학습했다”고 주장할 수도 있음
- 이런 세밀한 구분은 결국 무의미함. 지금은 그렇더라도, 나중에 몰래 바뀔 수 있음. 개발자들은 시스템을 이해했다고 생각하지만, 결국 계속 속게 됨
-
정확히 말하면, opt-out은 Copilot 학습용 설정임. 지금까지는 public repo만 opt-in이었지만, 4월 24일부터는 private repo도 기본 포함됨. Copilot을 private repo에서 쓰고 있다면, github.com/settings/copilot에서 opt-out하는 게 좋음. 30초면 됨
- 30초가 아니라 0초여야 함. 내 시간은 내 것이고, 프라이버시를 지키기 위해 시간을 써야 하는 이유가 없음
- “30초면 된다”는 말은 현실을 모름. 이런 정보를 알기 위해 매일 HN을 뒤져야 함. 결국 240시간을 써야 스위치가 있다는 걸 알게 됨
- 예전에는 opt-in이 아니었음. 그땐 사용 데이터를 학습하지 않았음. 내부적으로만 학습을 해왔고, 그 덕분에 성능 향상이 있었다고 함. 관련 내용은 이 블로그 글에 있음
- 설정이 모든 사용자에게 보이지 않음. 조직 단위로 Copilot을 관리 중이면 해당 옵션이 사라짐. 조직을 떠나면 자동으로 다시 opt-in될 수도 있음
-
팀에서 한 명이라도 opt-out하지 않으면 Copilot이 repo 전체에 접근할 수 있는지 궁금함. 팀원들의 설정 상태를 확인할 방법이 있는지도 알고 싶음
- 팀원이 코드를 복제해서 프롬프트에 붙여넣는 걸 막을 수 없는 것처럼, 이 설정도 통제 불가능함. MS 입장에서는 기본 opt-in이 훨씬 편리함
-
현재 설정은 사용자 단위로만 가능함. 조직 전체에서 일괄 비활성화할 방법이 있는지 궁금함. 한 명이라도 설정을 켜면 조직의 코드가 학습 데이터로 간주되는지 걱정됨
-
GitHub이 배너 공지를 꾸준히 띄운 건 인정함. 하지만 나도 이번 HN 글을 보기 전까지는 그걸 읽지 않았음
- 하지만 CLI로만 git을 쓰는 사람은 그 배너를 볼 수 없음
- 배너나 이메일을 읽어도 정확히 어떤 설정을 바꿔야 opt-out되는지 명시되어 있지 않음. 결국 사용자가 직접 찾아야 하고, 나중에야 제대로 설정했는지 알게 됨
- 나는 그 배너를 본 적이 없음. 어디에 표시되는지 궁금함
- 앱이 설정을 리셋하거나 잃어버리는 경우는 처음 봄
-
내 private repo는 엉망진창 코드라서 걱정할 필요 없음. 오히려 LLM이 내 코드로 학습하면 손해일 것임
- 나도 동참함. 내 쓰레기 코드로 M$ AI를 망가뜨리겠음
- LLM 오염시키기는 일종의 저항 방식으로 흥미로움
-
GitHub을 오랫동안 유료로 써온 사람 중 공지 못 본 사람들은 불쌍함
- 나도 opt-out 방식은 싫지만, 지금은 GitHub 모든 페이지에 배너 공지가 떠 있고, 이메일도 보냈음