Debian과 Rocky Linux의 장애 사례
- CrowdStrike는 유명한 사이버 보안 서비스 제공 업체로, 최근 Windows PC에서 발생한 Blue Screen of Death (BSOD) 문제를 일으킨 것으로 밝혀짐
- 이 문제는 항공사, 은행, 의료 서비스 제공자 등 다양한 분야의 운영에 지장을 초래했으나, Mac이나 Linux PC에는 영향을 미치지 않음
- 그러나 Debian과 Rocky Linux 사용자들도 수개월 동안 CrowdStrike 업데이트로 인해 심각한 장애를 겪었음에도 크게 주목받지 못함
- 이는 CrowdStrike의 소프트웨어 업데이트 및 테스트 절차에 대한 우려를 제기함
Debian Linux 장애 사례
- 4월에 한 시민 기술 연구소의 모든 Debian Linux 서버가 CrowdStrike 업데이트로 인해 동시에 다운되고 부팅을 거부함
- 이 업데이트는 Debian의 최신 안정 버전과 호환되지 않았음에도 불구하고, 해당 Linux 구성이 지원되는 것으로 알려져 있었음
- IT 팀은 CrowdStrike를 제거하면 시스템이 부팅된다는 것을 발견하고 이 사건을 보고함
- 한 팀원은 CrowdStrike의 지연된 대응에 불만을 표시했으며, 문제를 인정한 후 근본 원인 분석을 제공하는 데 수주가 걸렸다고 함
- 분석 결과, Debian Linux 구성이 CrowdStrike의 테스트 매트릭스에 포함되지 않은 것으로 나타남
Rocky Linux 장애 사례
- RockyLinux 9.4로 업그레이드한 후 CrowdStrike 사용자들도 커널 버그로 인해 서버가 다운되는 유사한 문제를 보고함
- CrowdStrike 지원팀은 이 문제를 인정했으며, 이는 다양한 운영 체제에 걸친 호환성 문제에 대한 불충분한 테스트와 주의 부족을 보여주는 패턴임
개선 방안
- 향후 이러한 문제를 방지하기 위해 CrowdStrike는 모든 지원 구성에 대한 엄격한 테스트를 우선시해야 함
- 또한 조직은 CrowdStrike 업데이트에 주의를 기울이고, 잠재적 장애를 완화하기 위한 비상 계획을 마련해야 함
Hacker News 의견
- OSS/Linux 생태계는 독립적이고 느슨하게 조정된 그룹들이 무료로 작성한 코드로 구성되어 있음에도 불구하고, 수십억 달러 기업의 소프트웨어보다 더 견고함
- OSS 시스템 프로그래머들은 공개적으로 코드를 작성하여, "많은 눈이 버그를 얕게 만든다"는 것보다 "어떤 눈이라도 나쁜 코드를 부끄럽게 만든다"는 이유 때문일 수 있음
- 상업 프로젝트를 오픈 소스로 만들 계획이지만, 공개하기 전에 많은 수정을 해야 함
- 여러 폐쇄형 상용 코드 베이스를 봤는데, 훨씬 더 나쁜 코드도 많이 봤음
- Crowdstrike가 4월 19일에 생산용 Linux 시스템에 문제를 일으켰다는 댓글이 있었음
- 제품 품질이 항공기에서 소프트웨어까지 자유낙하 중이며, 요즘은 QA가 부족한 것이 일반적임
- 이 분야에서 일했을 때, "이것들이 실제로 유용한가?"라는 의문이 항상 있었음
- Crowdstrike 등의 효과에 대한 제3자 연구가 있는지, 아니면 단지 보안 연극을 위해 우리의 삶을 더 나쁘게 만드는 것인지 궁금함
- Crowdstrike가 Windows 애플리케이션에 버그가 있는 DLL을 주입하여 앱이 자체적으로 충돌할 수 있다는 보고가 있었음
- 기업들이 결과적 책임을 회피할 수 있는 계약 조항을 사용할 수 있는 것이 문제임
- 이러한 조항을 생명 손실의 결과적 손실 계약과 같이 무효화해야 할 수도 있음
- 최소한 제한해야 함
- 업데이트가 최신 안정 버전의 Debian과 호환되지 않았음
- 분석 결과 Debian Linux 구성이 테스트 매트릭스에 포함되지 않았음
- 이는 실제 사기에 가까움. 지원한다고 선언했지만 실제로는 테스트하지 않음
- 자동차 제조업체가 안전벨트를 설치하지 않는 것과 같음. 왜 Crowdstrike는 처벌받지 않는지 의문임
- Crowdstrike는 모든 지원되는 구성에 대해 엄격한 테스트를 우선시해야 함
- 테스트는 비용이 들며, 경쟁 시장에서 필요로 하거나 원하는 회사에 제품을 판매하지 않음
- 기업에 제품을 강제로 판매하는 비즈니스 모델이므로 품질에 투자할 인센티브가 없음
- "아무도 눈치채지 못했다"는 말은 Crowdstrike가 미디어의 주목을 억제했다는 의미임
- 버그 발생 당일, HN 게시물에는 몇 달 전부터 문제를 보고하려고 했다는 댓글이 있었음
- 기사도 사람들이 눈치챘다고 쓰여 있음. 그래서 누가 눈치채지 못했는지, 아니면 문제가 충분히 인기가 없어서 무시된 것인지 궁금함
- Crowdstrike를 사용하는 사람이 있는지, 무엇을 하는지 궁금함
- 회사 노트북에 설치되어 있으며, 키로거와 활동 모니터로 보임
- "숨길 것이 없다"고 하지만, 여전히 일부 기업 슈퍼 유저가 나를 감시하는 것이 불편함