- Microsoft의 AI 연구팀이 GitHub에서 오픈소스 훈련 데이터를 공개하면서 실수로 38테라바이트의 개인 데이터를 노출
- 노출된 데이터에는 두 명의 직원의 작업장 디스크 백업, 비밀, 개인 키, 비밀번호, 그리고 30,000개 이상의 내부 Microsoft Teams 메시지가 포함
- 이 데이터는 Azure Storage 계정에서 데이터를 공유할 수 있게 해주는 Azure 기능인 SAS 토큰을 사용하여 공유됨. 그러나 링크는 전체 저장 계정을 공유하도록 설정되어 있어 데이터가 노출
- 이 사건은 AI를 활용할 때 조직이 직면하는 새로운 위험을 강조하며, 더 많은 엔지니어들이 대량의 훈련 데이터를 다루면서 추가적인 보안 검사와 보호장치가 필요하다는 것을 보여줌
- Wiz 연구팀은 잘못 구성된 저장 컨테이너를 인터넷에서 찾아내면서 이 노출을 발견했음
- 그들은 Microsoft 조직 아래에 있는 robust-models-transfer라는 GitHub 저장소를 발견했는데, 이 저장소는 이미지 인식을 위한 오픈소스 코드와 AI 모델을 제공하기 위해 만들어졌지만, 잘못된 구성 때문에 오픈소스 모델 이상의 것에 접근할 수 있는 URL을 허용한 것
- 사용된 토큰도 "전체 제어" 권한을 허용하도록 잘못 구성되어 있어, 공격자가 기존 파일을 보고, 삭제하고, 덮어쓸 수 있었음
- 이 사건은 SAS 토큰의 보안 위험을 강조하며, 이는 저장 계정에 높은 접근 수준을 부여하고 만료 문제가 있을 수 있음. 또한 관리하고 취소하는 것이 어려움
- Wiz 연구팀은 보안과 거버넌스 부재로 인해 외부 공유를 위해 Account SAS를 사용하는 것을 피하고, 시간 제한 공유를 위해 Stored Access Policy 또는 User Delegation SAS를 사용하는 것을 제안
- 팀은 또한 외부 공유를 위해 전용 저장 계정을 만들고 CSPM을 사용하여 정책을 추적하고 집행하는 것을 권장
- 이 사건은 보안 팀에게 AI 개발 과정의 각 단계에서 내재한 보안 위험을 이해하고, 데이터의 과다 공유와 공급망 공격의 위험을 포함해야 한다는 것을 상기시킴
- Microsoft는 이후 SAS 토큰을 무효화하고 GitHub에서 교체하였으며, 잠재적 영향에 대한 내부 조사를 완료하였음