민감한 정보 유출, 채팅 기록 포함한 DeepSeek 데이터베이스 노출

(wiz.io)

1P by GN⁺ 2025-01-30 | ★ favorite | 댓글 1개

요약
- Wiz Research는 DeepSeek의 공개적으로 접근 가능한 ClickHouse 데이터베이스를 발견했음. 이 데이터베이스는 데이터베이스 작업에 대한 완전한 제어를 허용하며, 내부 데이터에 접근할 수 있는 능력을 포함하고 있음. 노출된 데이터에는 채팅 기록, 비밀 키, 백엔드 세부 정보 및 기타 매우 민감한 정보가 포함되어 있음. Wiz Research 팀은 즉시 이 문제를 DeepSeek에 책임감 있게 공개했으며, DeepSeek은 신속하게 노출을 보안했음.
주요 내용
- DeepSeek은 중국의 AI 스타트업으로, 특히 DeepSeek-R1 추론 모델로 인해 주목받고 있음. 이 모델은 OpenAI의 o1과 같은 선도적인 AI 시스템과 성능에서 경쟁하며, 비용 효율성과 효율성에서 두드러짐.
- Wiz Research 팀은 DeepSeek의 외부 보안 상태를 평가하고 잠재적인 취약점을 식별하기 위해 조사에 착수했음. 몇 분 만에 DeepSeek과 연결된 공개적으로 접근 가능한 ClickHouse 데이터베이스를 발견했으며, 이는 완전히 개방적이고 인증되지 않은 상태로 민감한 데이터를 노출하고 있었음.
- 이 데이터베이스는 채팅 기록, 백엔드 데이터 및 민감한 정보를 포함하고 있었으며, 로그 스트림, API 비밀 및 운영 세부 정보가 포함되어 있었음. 더 심각한 것은, 이 노출은 인증이나 방어 메커니즘 없이 DeepSeek 환경 내에서 데이터베이스의 완전한 제어와 잠재적인 권한 상승을 허용했음.
노출 과정
- DeepSeek의 공개적으로 접근 가능한 도메인을 평가하는 것으로 시작했음. 외부 공격 표면을 매핑하여 약 30개의 인터넷에 노출된 하위 도메인을 식별했음. 대부분은 채팅봇 인터페이스, 상태 페이지, API 문서와 같은 요소를 호스팅하고 있었으며, 처음에는 고위험 노출을 시사하지 않았음.
- 그러나 표준 HTTP 포트(80/443)를 넘어 검색을 확장하면서 두 개의 비정상적이고 개방된 포트(8123 & 9000)를 감지했음. 이러한 포트는 인증 없이 접근 가능한 공개적으로 노출된 ClickHouse 데이터베이스로 이어졌음.
- ClickHouse는 대규모 데이터 세트에 대한 빠른 분석 쿼리를 위해 설계된 오픈 소스 열형 데이터베이스 관리 시스템임. Yandex에 의해 개발되었으며, 실시간 데이터 처리, 로그 저장 및 빅 데이터 분석에 널리 사용됨.
- ClickHouse의 HTTP 인터페이스를 활용하여 /play 경로에 접근할 수 있었으며, 이는 브라우저를 통해 임의의 SQL 쿼리를 직접 실행할 수 있게 했음. 간단한 SHOW TABLES; 쿼리를 실행하여 접근 가능한 데이터 세트의 전체 목록을 반환했음.
- log_stream 테이블은 특히 주목할 만했으며, 100만 개 이상의 로그 항목을 포함하고 있었음. 이 테이블에는 채팅 기록, API 키, 백엔드 세부 정보 및 운영 메타데이터와 같은 평문 로그가 포함되어 있었음.
주요 시사점
- AI 서비스의 빠른 채택은 보안과 함께하지 않으면 본질적으로 위험함. 이 노출은 AI 애플리케이션의 즉각적인 보안 위험이 인프라와 이를 지원하는 도구에서 비롯된다는 사실을 강조함.
- AI 보안에 대한 많은 관심이 미래의 위협에 집중되어 있지만, 실제 위험은 종종 기본적인 위험에서 비롯됨. 데이터베이스의 외부 노출과 같은 기본적인 보안 위험은 보안 팀의 최우선 과제가 되어야 함.
- AI 도구와 서비스를 채택하는 조직은 이러한 회사에 민감한 데이터를 맡기고 있다는 점을 기억해야 함. 빠른 채택 속도는 보안을 간과하게 만들 수 있지만, 고객 데이터 보호는 최우선 과제가 되어야 함.
- 보안 팀은 AI 엔지니어와 긴밀히 협력하여 사용 중인 아키텍처, 도구 및 모델에 대한 가시성을 확보하고 데이터를 보호하고 노출을 방지해야 함.
결론
- AI는 그 어느 때보다 빠르게 채택되고 있는 기술임. 많은 AI 회사가 보안 프레임워크 없이 중요한 인프라 제공자로 빠르게 성장했음. AI가 전 세계 비즈니스에 깊이 통합됨에 따라, 민감한 데이터를 처리하는 위험을 인식하고 공공 클라우드 제공자 및 주요 인프라 제공자에게 요구되는 보안 관행을 시행해야 함.

GN⁺ 2025-01-30 [-]

Hacker News 의견

비영어권 소프트웨어 엔지니어링에 대한 무지함을 깨달음. 데이터베이스 스키마와 로그가 영어로 되어 있는 이유에 대한 궁금증 제기
- 전 세계 개발자들이 영어를 배워야 하는지, 번역 과정이 있는지에 대한 의문
DeepSeek가 많은 미국 소매 투자자들에게 재정적 손실을 입혔다는 점에서 댓글의 적대감이 놀라움
- NVidia 주가에서 거의 700억 달러가 사라진 것에 대한 분노가 큼
URL과 포트를 직접 공개하는 것은 무책임하다고 생각함
- DeepSeek의 잘못된 관행을 옹호하는 것은 아니지만, 무책임한 행동은 아님
DeepSeek를 비난하려는 노력이 많았음
윤리적 해킹과 책임 있는 공개에서 DeepSeek의 타임라인이 잘 논의되지 않음
모델을 로컬에서 실행하거나 AWS Bedrock 같은 상태 없는 원격 채팅 모델을 사용하는 것이 좋음
개발 인프라와 관찰 가능성 데이터베이스에 대한 흥미로운 점
- 로그에 채팅 데이터가 포함되는 것은 불가피함
- 로켓 빌딩 프롬프트 스크린샷은 DeepSeek가 그러한 프롬프트를 완료하지 않도록 훈련 데이터를 제공한 것으로 보임
노출된 ClickHouse는 과거의 노출된 Elasticsearch와 유사함
DeepSeek에 버그 바운티 프로그램이 있는지 궁금함
- 허가 없이 시스템을 탐색하고 접근하는 것은 법적 문제를 일으킬 수 있음
- 버그 바운티 프로그램에 참여하거나 회사와 직접 협력하여 허가를 받은 후 시스템을 탐색해야 함
DeepSeek가 퀀트들의 사이드 프로젝트라는 관점에 부합함
- 외부 클라이언트 애플리케이션 배포에 익숙하지 않은 실수로 보임

답변달기

민감한 정보 유출, 채팅 기록 포함한 DeepSeek 데이터베이스 노출

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견