1P by GN⁺ 5시간전 | ★ favorite | 댓글 1개
  • 2026년 4월 24일부터 Copilot Free·Pro·Pro+ 사용자 데이터AI 모델 학습 및 개선에 활용되며, 사용자는 옵트아웃 설정으로 이를 거부할 수 있음
  • Business 및 Enterprise 사용자는 이번 변경의 영향을 받지 않으며, 이전에 거부 설정을 한 경우 기존 선택이 유지됨
  • 학습 데이터에는 입력 코드, 출력 결과, 커서 주변 컨텍스트, 피드백 평가 등 실제 개발 상호작용 정보가 포함됨
  • 기업 저장소, 비공개 콘텐츠, 옵트아웃 사용자 데이터는 학습에 사용되지 않으며, 데이터는 Microsoft 등 GitHub 계열사와만 공유됨
  • GitHub은 실제 개발자 상호작용 데이터가 정확도·보안성·버그 탐지 능력 향상에 핵심적이라며, 개발자 자발적 참여를 강조함

GitHub Copilot 상호작용 데이터 사용 정책 업데이트

  • 2026년 4월 24일부터 Copilot Free, Pro, Pro+ 사용자의 상호작용 데이터(입력, 출력, 코드 스니펫, 관련 컨텍스트)가 AI 모델 학습 및 개선에 사용
    • 단, 사용자가 옵트아웃(opt-out) 하면 데이터는 학습에 사용되지 않음
    • Copilot Business 및 Enterprise 사용자는 이번 변경의 영향을 받지 않음
  • 이전에 데이터 수집 거부 설정을 한 사용자는 기존 선택이 유지되며, 명시적으로 동의하지 않는 한 데이터는 학습에 포함되지 않음
  • GitHub은 이번 변경이 산업 표준 관행에 부합하며, 모델의 정확도·보안성·버그 탐지 능력 향상에 기여한다고 밝힘
  • 사용자는 설정 페이지Privacy 항목에서 언제든 참여 여부를 변경할 수 있음

실제 데이터 기반 학습의 필요성

  • 초기 Copilot 모델은 공개 데이터와 수작업 코드 샘플을 기반으로 구축됨
  • 이후 Microsoft 직원의 상호작용 데이터를 포함해 학습을 진행했으며, 여러 프로그래밍 언어에서 수용률(acceptance rate) 향상 등 유의미한 개선이 확인됨
  • GitHub은 이러한 결과를 바탕으로 다양한 실제 사용 사례를 반영하기 위해 실제 개발자 상호작용 데이터를 학습에 포함하기로 함

수집 및 활용되는 데이터 항목

  • 모델 학습에 사용될 수 있는 데이터는 다음과 같음
    • 사용자가 수락하거나 수정한 출력 결과
    • Copilot에 입력된 코드 스니펫 및 요청 내용
    • 커서 주변 코드 컨텍스트

      • 사용자가 작성한 주석 및 문서 내용
    • 파일명, 저장소 구조, 탐색 패턴

      • Copilot 기능과의 상호작용(채팅, 인라인 제안 등)
      • 제안에 대한 피드백(좋아요/싫어요 평가)

학습에 포함되지 않는 데이터

  • 다음 데이터는 모델 학습에 사용되지 않음
    • Copilot Business, Enterprise, 기업 소유 저장소의 상호작용 데이터
    • 옵트아웃한 사용자의 데이터
    • 이슈, 토론, 비활성(private at rest) 저장소의 콘텐츠
      • 단, Copilot 사용 중에는 비공개 저장소의 코드가 서비스 실행을 위해 처리될 수 있으며, 옵트아웃하지 않은 경우 학습에 포함될 수 있음

데이터 공유 및 보안 범위

  • 수집된 데이터는 GitHub 계열사(예: Microsoft) 와 공유될 수 있음
  • 그러나 제3자 AI 모델 제공자나 외부 서비스 업체와는 공유되지 않음
  • GitHub은 AI 보조 개발의 발전이 실제 개발자 상호작용 데이터에 달려 있음을 강조하며, Microsoft 및 GitHub 직원 데이터를 이미 모델 학습에 활용 중임

사용자 선택과 영향

  • 사용자가 데이터 제공에 동의하면, 모델은 개발 워크플로우 이해도 향상, 정확하고 안전한 코드 제안, 버그 사전 탐지 능력 강화 등의 개선을 얻게 됨
  • 참여하지 않더라도 Copilot의 기존 AI 기능은 그대로 이용 가능
  • GitHub은 개발자 커뮤니티 전체의 품질 향상을 위해 자발적 참여를 환영하며, 관련 문의는 FAQ 및 커뮤니티 토론 페이지에서 확인 가능
Hacker News 의견들
  • GitHub 설정의 “Allow GitHub to use my data for AI model training” 항목을 보면, 켜거나 끌 수 있음
    그런데 이걸 마치 “기능 접근 권한”처럼 포장해둔 게 웃김
    데이터를 공짜로 넘기는 걸 혜택처럼 말하는 게 좀 아이러니함

    • 문구 자체는 헷갈리진 않아서 그나마 나음
      GCS 버킷 만들 때의 “public access prevention” 체크박스처럼 혼란스럽진 않음
    • Copilot 관련 기능을 다 꺼놨는데도 Copilot Chat 사용률이 2%로 표시되어 있어서 당황스러움
      개인 계정에서는 일부러 안 쓰는데 왜 기록이 남는지 모르겠음
    • “기능 접근”이라는 표현이 너무 조작적으로 느껴짐
      사실상 내 데이터를 넘기는 건데, 마치 뭔가 잃는 것처럼 들리게 만들어둠
    • 어쩌면 내 데이터로 모델이 재학습되어 나중에 나한테도 약간 도움이 될 수도 있다는 게 “혜택”일지도 모르겠음
    • 결국 그 “기능”은 내 코딩 스타일이 다음 모델에 반영되는 것일 뿐임
  • 4월 24일부터 GitHub Copilot의 상호작용 데이터가 AI 학습에 사용된다고 공지했음
    기본값이 활성화 상태라서 직접 꺼야 함
    설정 페이지 링크
    비즈니스 계정도 기본적으로 켜져 있는지 궁금함. 그렇다면 꽤 수상한 정책

    • 기본값이 켜져 있는 게 믿기지 않음
      블로그 글에도 비활성화 링크를 안 넣은 건 불친절함
      직접 끄려면 이 경로 → Privacy → “Allow GitHub to use my data for AI model training” → Disabled로 설정해야 함
    • 공식 커뮤니티 답변에 따르면,
      기업 고객은 계약상 데이터 학습에 사용되지 않으며, 개인 사용자만 제어 가능함
    • 비즈니스 사용자에게도 기본 opt-in이라면 보안·프라이버시 정책 위반
      고객 코드가 학습에 쓰이지 않도록 하는 내부 정책이 있음
    • Copilot Business나 Enterprise 고객의 데이터는 학습에 사용되지 않는다고 확인함
    • 블로그에도 “Business와 Enterprise 사용자는 이번 변경의 영향을 받지 않는다”고 명시되어 있음
  • Copilot은 API 키나 비밀번호 같은 민감한 파일을 무시할 방법이 없음
    IDE를 여는 순간 이런 정보가 Microsoft로 전송될 수 있음
    관련 토론 링크

    • Gemini CLI는 ‘AUTH’ 같은 문자열이 포함된 환경 변수를 차단함
      그런데 예외 설정이 두 개나 있는데 둘 다 작동하지 않음
      PR을 올려도 봇만 반응하고 사람은 안 봄
      게다가 Gemini 3는 오픈소스 코드를 리팩터링할 때, 원 개발자의 의도에 반한다고 판단하면 코드 생성을 거부함
    • 사실 민감한 파일을 저장소에 두는 게 문제이긴 함
    • 이런 문제는 Copilot뿐 아니라 OpenAI Codex 이슈에서도 반복됨
    • 엔터프라이즈나 조직 단위에서 ignore path를 설정해둔 기억이 있음
  • 유료 사용자라면 기본값이 opt-out이 아니라 opt-in이어야 한다고 생각함
    GitHub의 Mario Rodriguez(@mariorod)가 이런 결정을 내린 게 이해되지 않음

    • 그의 README를 보면 “narrative shaping과 ‘How we Work’ 변화”가 주요 관심사라서, 이런 접근이 그 연장선인 듯함
  • GitHub와 AI 시대 이후로 내 코드는 전부 자체 서버의 private git repo로 옮겼음
    오픈소스 라이선스를 고민할 이유가 사라졌음
    내 코드를 상업적 AI 학습에 쓰게 둘 생각이 없음
    진지하게 오픈소스를 하고 싶다면 Codeberg로 옮길 때임

    • 나도 같은 결정을 내렸음
      기존 오픈소스 프로젝트는 유지보수만 하고, 새 프로젝트는 SaaS나 바이너리 형태로만 배포함
      대신 언어·OS 프로젝트에 기여하면서 모델 재학습의 필요성을 느끼는 중임
    • 아마 GitHub의 TOS에 서비스 운영을 위한 라이선스 예외 조항이 있을 것 같음
    • 지금은 Forgejo를 셀프호스팅하고, 자체 하드웨어에서 러너를 돌리며 만족 중임
  • EU에서는 이런 정책의 법적 근거가 궁금함
    수집 데이터에 개인식별정보(PII)가 포함될 수 있고, GDPR 기준으로는
    “자발적이고 명확한 동의”가 필요함

    • GDPR은 opt-out 기본값을 금지함
      코드 한 줄에 내 전화번호를 테스트용으로 넣었다가 Copilot으로 전송되면 법적 조치를 취할 수도 있음
    • 내 GitHub 설정에는 이 옵션이 아예 없어서, 혹시 미국 사용자만 해당되는 건지 의문임
  • “이 접근은 업계 표준과 일치한다”는 말은 결국 “다른 곳도 하니까 괜찮다” 는 논리임

    • 하지만 Anthropic은 opt-in 방식이고, 활성화하면 할인 혜택까지 줌
  • 결국 GitHub은 모든 사용자의 전체 코드베이스를 보존하려는 것처럼 보임
    Copilot이 사용하는 데이터가 Microsoft 계열사 전체와 공유될 수 있다는 문구가 있음

  • Copilot 구독을 취소하는 옵션이 보이지 않음
    모바일 결제 설정 링크를 봐도 없음
    공식 문서에 따르면
    학생·교사·오픈소스 유지관리자로서 무료 접근 권한을 받은 경우 취소할 수 없다고

  • 그래도 GitHub이 이 변경을 숨기려 하진 않았고, opt-out 절차를 공개적으로 안내했음

    • 하지만 이메일에 직접 링크도 없고, 설정 이름도 명시하지 않음
      전형적인 다크 패턴 느낌임
    • 실제로는 opt-out이 간단하지 않음
      Android 앱에서는 설정 페이지를 찾기도 어렵고, 페이지가 제대로 작동하지 않음