Microsoft의 AI 연구팀이 GitHub에서 오픈소스 훈련 데이터를 공개하면서 실수로 38테라바이트의 개인 데이터를 노출
노출된 데이터에는 두 명의 직원의 작업장 디스크 백업, 비밀, 개인 키, 비밀번호, 그리고 30,000개 이상의 내부 Microsoft Teams 메시지가 포함
이 데이터는 Azure Storage 계정에서 데이터를 공유할 수 있게 해주는 Azure 기능인 SAS 토큰을 사용하여 공유됨. 그러나 링크는 전체 저장 계정을 공유하도록 설정되어 있어 데이터가 노출
이 사건은 AI를 활용할 때 조직이 직면하는 새로운 위험을 강조하며, 더 많은 엔지니어들이 대량의 훈련 데이터를 다루면서 추가적인 보안 검사와 보호장치가 필요하다는 것을 보여줌
Wiz 연구팀은 잘못 구성된 저장 컨테이너를 인터넷에서 찾아내면서 이 노출을 발견했음
그들은 Microsoft 조직 아래에 있는 robust-models-transfer라는 GitHub 저장소를 발견했는데, 이 저장소는 이미지 인식을 위한 오픈소스 코드와 AI 모델을 제공하기 위해 만들어졌지만, 잘못된 구성 때문에 오픈소스 모델 이상의 것에 접근할 수 있는 URL을 허용한 것
사용된 토큰도 "전체 제어" 권한을 허용하도록 잘못 구성되어 있어, 공격자가 기존 파일을 보고, 삭제하고, 덮어쓸 수 있었음
이 사건은 SAS 토큰의 보안 위험을 강조하며, 이는 저장 계정에 높은 접근 수준을 부여하고 만료 문제가 있을 수 있음. 또한 관리하고 취소하는 것이 어려움
Wiz 연구팀은 보안과 거버넌스 부재로 인해 외부 공유를 위해 Account SAS를 사용하는 것을 피하고, 시간 제한 공유를 위해 Stored Access Policy 또는 User Delegation SAS를 사용하는 것을 제안
팀은 또한 외부 공유를 위해 전용 저장 계정을 만들고 CSPM을 사용하여 정책을 추적하고 집행하는 것을 권장
이 사건은 보안 팀에게 AI 개발 과정의 각 단계에서 내재한 보안 위험을 이해하고, 데이터의 과다 공유와 공급망 공격의 위험을 포함해야 한다는 것을 상기시킴
Microsoft는 이후 SAS 토큰을 무효화하고 GitHub에서 교체하였으며, 잠재적 영향에 대한 내부 조사를 완료하였음