마이크로소프트 AI 연구자들에 의해 38TB의 데이터가 실수로 노출

(wiz.io)

7P by GN⁺ 2023-09-19 | ★ favorite | 댓글 1개

Microsoft의 AI 연구팀이 GitHub에서 오픈소스 훈련 데이터를 공개하면서 실수로 38테라바이트의 개인 데이터를 노출
노출된 데이터에는 두 명의 직원의 작업장 디스크 백업, 비밀, 개인 키, 비밀번호, 그리고 30,000개 이상의 내부 Microsoft Teams 메시지가 포함
이 데이터는 Azure Storage 계정에서 데이터를 공유할 수 있게 해주는 Azure 기능인 SAS 토큰을 사용하여 공유됨. 그러나 링크는 전체 저장 계정을 공유하도록 설정되어 있어 데이터가 노출
이 사건은 AI를 활용할 때 조직이 직면하는 새로운 위험을 강조하며, 더 많은 엔지니어들이 대량의 훈련 데이터를 다루면서 추가적인 보안 검사와 보호장치가 필요하다는 것을 보여줌
Wiz 연구팀은 잘못 구성된 저장 컨테이너를 인터넷에서 찾아내면서 이 노출을 발견했음
그들은 Microsoft 조직 아래에 있는 robust-models-transfer라는 GitHub 저장소를 발견했는데, 이 저장소는 이미지 인식을 위한 오픈소스 코드와 AI 모델을 제공하기 위해 만들어졌지만, 잘못된 구성 때문에 오픈소스 모델 이상의 것에 접근할 수 있는 URL을 허용한 것
사용된 토큰도 "전체 제어" 권한을 허용하도록 잘못 구성되어 있어, 공격자가 기존 파일을 보고, 삭제하고, 덮어쓸 수 있었음
이 사건은 SAS 토큰의 보안 위험을 강조하며, 이는 저장 계정에 높은 접근 수준을 부여하고 만료 문제가 있을 수 있음. 또한 관리하고 취소하는 것이 어려움
Wiz 연구팀은 보안과 거버넌스 부재로 인해 외부 공유를 위해 Account SAS를 사용하는 것을 피하고, 시간 제한 공유를 위해 Stored Access Policy 또는 User Delegation SAS를 사용하는 것을 제안
팀은 또한 외부 공유를 위해 전용 저장 계정을 만들고 CSPM을 사용하여 정책을 추적하고 집행하는 것을 권장
이 사건은 보안 팀에게 AI 개발 과정의 각 단계에서 내재한 보안 위험을 이해하고, 데이터의 과다 공유와 공급망 공격의 위험을 포함해야 한다는 것을 상기시킴
Microsoft는 이후 SAS 토큰을 무효화하고 GitHub에서 교체하였으며, 잠재적 영향에 대한 내부 조사를 완료하였음

▲

GN⁺ 2023-09-19 [-]

Hacker News 의견

Microsoft AI 연구자들에 의한 데이터 노출 사건에 대한 기사, 하지만 댓글러들은 이것이 AI와 직접적으로 관련이 없다고 지적
이슈는 클라우드 제공자, 혼란스러운 보안 토큰, 그리고 대규모 데이터 다운로드 처리에 대한 것이 더 많음
강조된 AI 특정 위험 중 하나는 대규모 AI 모델을 저장하기 위해 직렬화된 Python 객체를 사용하는 것으로, 이는 난독화될 수 있고 잠재적으로 악성 코드를 포함할 수 있음
이 사건은 저장 토큰의 잘못된 구성 때문이었으며, 이는 정기적인 침투 테스트의 필요성을 강조하는 일반적인 사건임
Azure 저장소에서 Pickle 파일과 SAS 토큰의 사용이 비판되며, 대신 역할 기반 접근 제어(RBAC)를 사용하는 것이 제안됨
이 사건은 깊이 있는 방어의 부재를 드러내며, SAS 토큰은 만료 기간이 없고 깊은 접근을 제공하며, 그들만의 토큰을 가진 기계 백업을 포함함
모든 비밀과 환경 변수를 파기하고, 대부분의 시스템이 역할 기반으로 작동할 수 있다는 제안이 있음
이 사건은 인간의 보안 토큰 생성의 실패로 보이며, 조직이 인증 토큰/자격증명의 일괄 공유를 방지하기 위해 OrgPolicy를 설정하는 것이 제안됨
누군가가 Teams에서 Teams 메시지를 내보낼 수 있었다는 것에 대한 놀라움이 있음
데이터 노출은 두 년 동안 계속되었으며 두 달 전에 수정되었음
일부 댓글러들은 Azure의 키 관리 시스템을 싫어하며, 각 컨테이너마다 무제한의 명명된 키를 가지는 것이 더 좋을 것이라고 제안함
이 사건은 클라우드 보안의 어려움을 증명하는 것으로 보이며, 한 두 가지의 실수가 테라바이트의 데이터를 노출시킬 수 있음

답변달기