Atlassian, 고객 데이터 AI 학습 활용을 기본값으로 전환
(letsdatascience.com)- Jira, Confluence 등 Atlassian Cloud 제품의 고객 메타데이터와 앱 내 콘텐츠가 2026년 8월 17일부터 Rovo와 Rovo Dev 학습에 기본 활용 예정
- 요금제별 기본값이 다르게 적용되며, Free·Standard·Premium에서는 메타데이터 기여가 항상 활성화되고 Enterprise만 메타데이터와 앱 내 데이터의 기본 비활성화 및 제어권 유지
- 수집 대상에는 가독성 점수, 스토리 포인트, SLA 값 같은 메타데이터와 페이지 본문, 이슈 설명, 댓글, 워크플로 이름 같은 앱 내 데이터 포함
- 직접 식별자 제거와 집계 등 보호 조치가 적용되지만, 기여 데이터는 최대 7년 보관되며 삭제 또는 옵트아웃 이후 앱 내 데이터는 30일 이내 제거, 학습 모델은 90일 이내 재학습 진행
- 기존의 비사용 입장에서 벗어나 업무용 도구의 데이터 출처와 가격대별 통제 수준을 바꾸는 정책 전환으로, 프라이버시·거버넌스·컴플라이언스 판단에 영향 확대
변경 개요
- Atlassian, 2026년 8월 17일부터 Jira, Confluence와 기타 Atlassian Cloud 제품의 고객 메타데이터와 앱 내 콘텐츠를 AI 학습에 기본 활용 예정
- 대상 AI 기능으로 Rovo와 Rovo Dev 명시
- 영향 대상 규모 약 30만 고객
- 데이터 기여 정책 변경에 따라 요금제별 기본값 차등 적용
- 하위 요금제는 메타데이터 수집 옵트아웃 불가
- Enterprise 요금제는 메타데이터와 앱 내 데이터 수집에 대한 제어권 유지
- 수집된 기여 데이터 보관 기간 최대 7년
- 삭제 또는 옵트아웃 이후 앱 내 데이터는 30일 이내 제거
- 해당 데이터로 학습된 모델은 90일 이내 재학습해 기여분 제거
기술 세부 사항
- Atlassian, 수집 대상을 메타데이터와 앱 내 데이터 두 범주로 구분
- 메타데이터는 비식별화된 신호 포함
- 앱 내 데이터는 사용자 생성 콘텐츠 포함
- 메타데이터 범주에 포함되는 항목 구체화
- 가독성 및 복잡도 점수
- 작업 분류
- 의미적 유사도 지표
- 스토리 포인트
- 스프린트 종료 날짜
- Jira Service Management의 SLA 값
- 앱 내 데이터 범주에 포함되는 항목 구체화
- Confluence의 페이지 제목과 본문
- Jira 이슈 제목, 설명, 댓글
- 사용자 정의 이모지 이름
- 사용자 정의 상태 이름
- 워크플로 이름
- 학습 전 처리 방식으로 직접 식별자 제거, 데이터 집계, 보호 조치 적용 명시
요금제별 기본 설정과 제외 대상
- 기본 설정은 조직의 가장 높은 활성 요금제를 기준으로 결정
- Free와 Standard 고객
-
메타데이터 기여 항상 활성화
- 메타데이터 수집 옵트아웃 불가
- 앱 내 데이터 기여는 기본 활성화되지만 설정 변경 가능
- Premium 고객
- 메타데이터 기여 항상 활성화
- 앱 내 데이터 기여는 기본 비활성화
- Enterprise 고객
- 메타데이터와 앱 내 데이터 모두 기본 비활성화
- 메타데이터 옵트아웃 가능
- 전체 수집 대상에서 제외되는 고객군 명시
- customer-managed encryption keys 사용 고객
- Atlassian Government Cloud 사용 고객
- Atlassian Isolated Cloud 사용 고객
- HIPAA 의무가 있는 고객
-
맥락과 중요성
- 이번 정책, 기존 입장과 반대 방향으로 전환
- 이전에는 고객 데이터를 AI 서비스 학습이나 개선에 사용하지 않는다고 밝혔음
- 변화 배경으로 제시된 산업 흐름
- SaaS 공급업체들이 내부 사용 신호와 콘텐츠를 수집해 모델 부트스트랩, 미세조정, 평가에 활용
- 동시에 비식별화와 집계 기반 분석 약속 병행
- Atlassian이 언급한 실질적 이점
- 검색 관련성 향상
- 더 나은 요약
- 템플릿 제안
- 에이전트형 워크플로 최적화
- 현업 실무자 관점의 영향
- 업무용 도구에 쓰이는 모델의 데이터 출처 변화
- 가격대별 데이터 통제 수준과 컴플라이언스·조달 판단 기준 변화
위험과 트레이드오프
- 비Enterprise 고객의 의무적 메타데이터 수집, 식별자 제거 여부와 별개로 프라이버시와 거버넌스 우려 유발
- 스토리 포인트와 SLA 지표 같은 텔레메트리가 프로젝트 구조와 성과 패턴을 드러낼 수 있음
- 비식별화 데이터의 7년 보관, 시간 경과에 따른 노출 면 확대
- 장기 데이터 보관 감사를 요구하는 고객에게 추가 부담 발생
- 고보안 고객과 customer-managed keys 사용 고객을 위한 제외 경로 존재
- 다만 더 비싼 요금제 또는 특수 배포 형태로 이전 필요
주목할 부분
- 조직별로 Atlassian 테넌트 점검 필요
- 테넌트별 가장 높은 활성 요금제 확인 필요
- 기본 데이터 기여 설정 파악 필요
- 롤아웃 기간 중 관리 설정 업데이트 필요
- 완전한 옵트아웃이 필요하면 Enterprise 또는 격리형 배포 이전 검토 필요
- 제품 측면의 관전 포인트
- Atlassian이 90일 재학습 절차를 실제로 어떻게 운영하는지 확인 필요
- Rovo에 사용되는 다운스트림 LLM 공급업체가 입력값을 보관하지 않는다고 주장하는지 확인 필요
- 이 패턴이 엔터프라이즈 SaaS 전반으로 확산될 경우 고객 반발과 규제 감시 가능성 언급
평가 근거
- 이번 변화, 수천 개 엔터프라이즈 사용자와 데이터 거버넌스 및 모델 출처 관리를 맡는 실무자에게 실질적 영향 발생
- 최첨단 모델이나 규제 이정표로 규정되지는 않음
- 팀의 데이터 파이프라인과 컴플라이언스 선택지를 실질적으로 바꾸는 제품 정책 변화로 평가됨
Hacker News 의견들
-
나는 Atlassian이 실수의 연속만 이어가는 느낌임. 여전히 제품을 자주 쓰지만 P0급 버그를 겪는 빈도가 너무 높음. self-hosted Bitbucket workers는 특히 Docker 쪽에서 너무 낡아서 임시방편을 잔뜩 넣어야 했음. JIRA에서는 새 티켓 순서를 바꾸려면 몇 년째 새로고침이 필요함. 최근 몇 년간 JIRA와 Bitbucket에 추가된 새 기능도 잘 안 돌아갔음. 무료 체험으로 AI 기능도 써봤지만 전혀 동작하지 않았고, 해지도 온라인에서 안 돼서 지원 티켓을 여러 장 써야 했는데 그 와중에 지원 문의 폼도 여러 번 깨졌음. 왜 이렇게까지 기능 장애가 심해졌는지 기술 부채인지, 인재 이탈인지, 둘 다인지 궁금함. 커뮤니티를 보면 우회책이 달린 버그가 수백 수천 개씩 보임
- 나는 무료 체험 해지를 온라인에서 막아둔 건 고객 기만 말고는 설명이 안 된다고 봄. 이런 건 법으로 막기도 아주 쉬워 보이는데 정부가 관심이 없는 듯함. Atlassian은 사용자보다 그 사용자의 상사를 상대로 파는 전형적인 대기업처럼 보임. 일정 규모를 넘어서 품질 경쟁 압박이 약해지면 내부 부패와 무능이 쉽게 퍼진다고 느껴짐
- 나는 거기서 일했던 사람으로서, 답은 엔지니어링 역량 부족과 산만한 우선순위, 그리고 의미 없는 조직 개편이 겹친 결과라고 봄. Bitbucket pipelines와 workers도 사실상 두 사람이 처음 만들었고, 지난 10년간 적극적으로 유지보수한 인원이 한 명 남짓이었을 가능성이 큼. 최근 해고까지 있었다면 더 심했을 듯함. 그 사무실은 이제 물리적으로도 사라졌고 당시 사람들도 다 떠났음
- 나는 원인을 한마디로 Featureitis라고 봄. 생각 없이 기능만 계속 밀어 넣는 방식임. 요즘은 AI가 짠 코드까지 얹혔을 가능성도 있어 보임. 중간 규모 프로젝트에서도 새 기능만 밀어붙이면 비슷한 상태가 되며, 내가 겪은 몇몇 프로젝트도 거대한 백로그에서 기능 체크만 중요했던 탓에 같은 길을 갔음
- 나는 Jira의 검색 기능이 늘 쓸 수 없는 수준이었다고 느낌. 플랫폼 전체에서 가장 최악인 부분일 수도 있는데, 여전히 내가 절대 안 쓸 기능 추가에 집중하는 걸 보니 허탈함
- 나는 요즘 Jira가 동기화 꼬임 때문에 너무 불안정하다고 느낌. 스프린트 보드에서 티켓 모달이 저절로 닫혀서 계속 다시 열어야 했고, 얼마 전에는 아무리 해도 티켓이 해당 보드에 나타나지 않다가 나중에 에픽이 갑자기 생기고 그 뒤에 개별 티켓도 다시 나타났음. 이른바 vibe coding이 세상에 더한 가치가 이런 것인가 싶음
-
나는 더 좋은 출처를 걸고 싶지만, 현재 무료 고객과 유료 고객이 기본값으로 AI 학습에 데이터 제공으로 opt-in 되고 있다는 점이 핵심이라고 봄. Confluence 페이지와 Jira 티켓 같은 모든 내용이 대상임. Atlassian 지원 문서에는 끄는 방법이 적혀 있지만, 우리 인스턴스들에서는 그 설정 자체가 보이지 않음
- 나는 메일로 받은 안내에 따르면 opt-out 설정이 5월부터 Admin portal에 순차 배포된다고 이해했음. Jira, Confluence, Jira Service Management와 Atlassian Platform 앱들에 먼저 적용되고, 2026년 5월 19일까지 점진적으로 Atlassian Administration에 나타날 예정이며 2026년 8월 17일 전에 다시 알림을 준다고 했음
- 나는 Atlassian Administration > Security를 포함해 여러 설정 페이지를 다 뒤져봤지만 Data contribution 항목을 전혀 못 찾았음. 그렇다면 지금은 자동 opt-in인데 실제로는 opt-out 방법이 없는 상태인지 묻게 됨
- 나는 FAQ에 적힌 범위를 보고 충격받았음. 사용자 생성 콘텐츠라며 Confluence 제목과 본문, Jira 이슈 제목과 설명, 댓글, 커스텀 이모지 이름, 커스텀 상태 이름, 워크플로 이름까지 포함된다고 하니 범위가 너무 넓음
- 나는 고객 데이터나 비공개 티켓, embargoed CVE 수정 내용, 민감한 건강 정보 같은 민감 정보까지 모델에 섞어 학습시키고 나중에 엉뚱한 사람에게 새어 나갈 수 있는지 걱정됨
- 나는 변경 사항에 대한 공식 설명으로 Atlassian FAQ를 참고하는 게 가장 직접적이라고 봄
-
나는 Anthropic이 Atlassian 인수를 논의 중이고 아마도 학습 데이터 때문이라는 소문을 봤음. 이미 데이터 포이즈닝 움직임도 돈다는 식의 Reddit 글도 있음
- 나는 그게 사실이면 최소 두 회사는 더 이상 Atlassian 제품을 못 쓸 거라고 앎. 프라이버시와 규제 요구사항을 너무 가볍게 본다는 신호로 읽힘
- 나는 예전에는 GitHub 같은 곳의 소스코드가 긁혀서 AI가 코드를 생성했다면, 이제는 Atlassian 같은 곳의 명세 문서가 긁혀서 AI가 그걸 다시 생성하는 단계로 가는 것 같다고 느낌. 그러면 다음 소스는 무엇인지, 회사 미션 문구나 돈 버는 구호까지도 대상이 될지 씁쓸한 상상을 하게 됨
- 나는 주가가 계속 떨어지면 그런 인수가 정말 일어날 수도 있겠다고 봄
-
나는 enterprise SaaS에서 기본 opt-out이 아니라 기본 수집 패턴이 점점 정상화되는 중이라고 느낌. 그런데 이번 건은 단순 메타데이터가 아니라 앱 안의 모든 콘텐츠까지 범위가 넓고, 게다가 opt-out 설정도 렌더링되지 않는다는 점이 특히 심각함. 정책 결정 자체는 논쟁할 수 있어도, 이 둘이 함께 있으면 마찰을 의도적으로 만든 것처럼 보임. 또 data residency는 별개로 짚어야 하는데, 많은 구매자가 지역 고정을 전면적 프라이버시 보장으로 여기지만 실제로는 저장 위치를 뜻할 뿐 누가 어떤 목적으로 접근하는지까지 보장하지는 않음
- 나는 특히 The Register 기사에 나온, 지금 당장 계약을 해지해도 새 data contribution 설정은 2026년 8월 17일까지 적용되지 않는다는 문구가 더 비열하게 느껴졌음. 즉, 선택지를 검토할 시간조차 사실상 주지 않는 구조임
-
나는 GitHub, Figma, Adobe, Vercel처럼 다른 많은 회사도 이런 걸 기본 활성화한다고 봄. 그래서 어느 회사든 데이터를 맡겨두면 기본적으로 모델 학습에 쓸 수 있다고 가정하는 편이 현실적이라고 느낌
- 나는 어쩌면 올해가 self-hosted의 해가 될 수도 있다고 봄. 프라이버시가 크게 중요하지 않은 공개 블로그 같은 건 여전히 클라우드에 두지만, 모델 학습이나 광고 판매에 쓰이고 싶지 않은 데이터는 내 네트워크에서 직접 호스팅하는 쪽으로 옮겼음
-
나는 Anthropic 인수설이 사실이라면, Atlassian이 비즈니스 작업 주변의 고신호 데이터셋을 통째로 살 수 있는 기회로 보일 거라 생각함
- 나는 차라리 Broadcom이 Atlassian을 사서 VMware 때처럼 해버리면 영원히 문제가 해결될지도 모르겠다는 식의 비꼼 섞인 상상을 해봄
- 나는 Atlassian 안의 데이터가 결코 깨끗하거나 자연스러운 데이터셋이 아니라고 봄. 지옥 같은 설계가 실제 개발자의 일을 온갖 잡음으로 삼켜버리도록 만든 공간처럼 느껴짐
- 나는 이런 소문이 포럼 추측만 도는 단계라면 신뢰할 만한 출처가 나오기 전까지 믿지 않겠음. 괜히 주가 띄우고 털어내려는 이야기처럼도 들림
-
나는 private Bitbucket 저장소의 코드와 콘텐츠까지 Atlassian이 수집 대상으로 삼는지 궁금함. 정책과 FAQ 문구가 모호해서 예 아니오로 분명한 답을 듣고 싶음
- 나는 몇 달 전에 찾아봤을 때는 private repo 코드로 AI 학습을 하진 않는다고 해석했지만, 이번 발표를 보고 나서는 어쨌든 내 서버로 옮길 생각임. 클라우드 저장소가 편하긴 해도, 누군가 와서 내 데이터를 자기 것처럼 가져갈까 계속 걱정하는 건 감수할 가치가 없다고 느낌
- 나는 문구가 모호하다면 사실상 답은 이미 나온 셈이라고 봄
-
나는 예전에는 돈을 안 내면 내가 상품이라는 말이 있었는데, 이제는 기업이 돈까지 내고 자기 자신이 상품이 되는 셈이라 더 황당하게 느껴짐
-
나는 Atlassian의 data residency 옵션이 이 문제를 막아주지 않는다는 점을 꼭 짚고 싶음. 데이터를 특정 리전에 묶어놔도 학습 용도로 쓰이는 건 여전히 가능함
-
나는 그래서 Atlassian이 on-prem용 Data Center 지원 축소를 원했던 이유가 더 분명해 보인다고 느낌