GN⁺: 2024년 3월 7일 발생한 Tailscale.com 장애 사건
(tailscale.com)Tailscale.com 2024년 3월 7일 서비스 중단에 대하여
- 2024년 3월 7일, Tailscale.com은 TLS 인증서가 만료되어 약 90분 동안 접속할 수 없었음.
- 이 문제는 신속하게 식별 및 해결되었으며, 주로 마케팅 자료와 문서에 영향을 미쳤음.
- 예상치 못한 서비스 중단은 문제이며, 발생 원인, 영향 및 재발 방지를 위한 조치에 대해 설명하고자 함.
발생한 일
- 2023년 12월에 새로운 호스팅 제공업체로의 이전을 포함한 주요 웹사이트 개편을 진행함.
- 호스팅 제공업체가 IPv6를 기본적으로 지원하지 않아, IPv6 요청을 처리하기 위해 별도의 프록시를 운영함.
- 이 구성은 호스팅 제공업체에 의해 '잘못된 설정'으로 간주되었고, 경고를 받았으나 자동 인증서 갱신을 방해할 것이라는 점을 인지하지 못함.
- 인증서 만료를 확인하는 프로버가 있었지만 IPv6를 통해서만 확인하여, 프록시가 관리하는 유효한 인증서만을 확인함으로써 임박한 만료를 감지하지 못함.
영향
- 대부분의 Tailscale 작업은 메인 웹사이트에 접근하지 않아도 되므로, 많은 사용자가 정상적인 사용에 차질을 겪지 않음.
- 문서, 블로그 및 기타 참조 자료가 접근 불가능했으며, 관리 콘솔과 설정 페이지는 영향을 받지 않았지만, 직접 접속 방법을 모르는 사용자는 오프라인 상태로 오해할 수 있음.
- 빠른 설치 스크립트가 접근 불가능하여 일부 설치(자동 설치 포함)에 방해가 됨.
- Tailscale 패키지를 제공하는 도메인은 접근 가능했으며, Go의
go get
메커니즘을 통한 해결 방법은 캐싱 덕분에 최소화됨.
해결을 위한 조치
- 문제를 파악한 후, '추가' AAAA 레코드를 일시적으로 제거하고 해당 인증서를 수동으로 갱신했음.
- IPv6를 통한 사이트 및 서비스 접근성을 유지하고자 레코드를 복원함.
- 단기적으로는 여러 개의 중복된 캘린더 알림과 수동 갱신을 위한 지정된 시간을 설정할 계획임.
- 프로버 인프라를 업데이트하여 IPv4와 IPv6 엔드포인트를 별도로 확인하도록 할 예정임.
- 웹사이트 인프라에서 IPv6를 더 직접적으로 지원함으로써 프록시를 불필요하게 만들기를 희망함.
- Tailscale의 설계 덕분에 대부분의 사용자가 대부분의 용도로 이번 중단에 영향을 받지 않았음.
GN⁺의 의견
- Tailscale의 서비스 중단 사례는 IT 인프라 관리의 중요성을 강조함. 특히, 인증서 갱신과 같은 기본적인 유지 관리 작업이 얼마나 중요한지를 보여줌.
- 이 사건은 IPv6 지원의 중요성과 동시에 기존 인프라와의 호환성 문제를 해결하기 위한 창의적인 접근법이 필요함을 시사함.
- 비슷한 기능을 제공하는 다른 서비스로는 Cloudflare, Let's Encrypt 등이 있으며, 이들은 자동 인증서 갱신 기능을 제공하여 유사한 문제를 방지할 수 있음.
- 기술을 도입할 때는 인프라 호환성, 자동화 가능성, 그리고 유지 관리의 용이성을 고려해야 함. 이러한 사건은 기술 선택 시 득과 실을 신중하게 평가해야 하는 이유를 보여줌.
- 이 기사는 사용자와 관리자에게 인증서 만료와 같은 기본적인 시스템 관리 작업에 대한 경각심을 일깨우는 데 도움이 될 수 있음.
Hacker News 의견
-
만료되는 인증서 문제
만료되는 인증서가 새로운 DNS 장애의 원인이 되고 있음. Tailscale을 사용하여 어디서나 안전하게 작업할 수 있는 경험을 공유함. Tailscale을 통해 온프레미스 서버와 AWS 프로덕션 설정에 접근하며, 로컬 와이파이가 느려도 다른 위치에서 SSH를 통해 문제를 해결할 수 있음. Tailscale은 네트워크 접근 권한을 쉽게 부여하고 철회할 수 있는 기능을 제공함.
-
인증서 만료로 인한 문제
인증서 만료 문제가 다시 발생함. 사후 분석의 일환으로 마케팅 사이트와 고객 운영의 중요 경로를 분리하는 것을 권장함. GitHub이나 Zendesk 같은 사이트의 다운타임이 예상보다 흔하다는 점을 지적함.
-
마케팅 사이트와 앱의 연결 문제
마케팅 사이트에 앱 로그인 페이지 링크를 두어 발생한 문제를 공유함. 마케팅 사이트가 다운되면 사용자들이 앱도 다운된 것으로 오해할 수 있음을 깨달음. 사용자들은 제공된 경로를 따라가며 다른 경로의 존재를 모르는 경우가 많음.
-
가격 정책에 대한 불만
Tailscale의 서비스를 좋아하지만, VPN에 대한 적절한 접근 제어가 월 18달러라는 비싼 가격 때문에 경영진에게 판매하기 어려움. 낮은 등급의 서비스는 접근 제어 없이는 판매하기 어려움.
-
웹사이트 제공업체에 대한 의문
웹사이트의 제공업체가 누구인지, IPv6 지원이 없어 복잡한 절차를 거쳐야 하는지에 대한 의문을 제기함.
-
엔지니어링 문화에 대한 칭찬
12월에 주요 업데이트를 신뢰할 수 있는 CI/CD 및 모니터링 프로세스를 갖춘 것에 대해 부러움을 표함. 그러나 IPv6 설정 문제로 인증서 갱신에 실패한 것, 문제 해결에 90분이 걸린 이유, IPv6를 지원하는 DNS 제공업체로 이전하지 않은 이유 등에 대한 미해결 질문이 있음.
-
TLS 종료가 필요한 이유에 대한 의문
프록시가 TLS를 종료할 필요가 있는지, 단순한 TCP 프록시로도 충분하지 않은지에 대한 의문을 제기함. TCP 프록시를 사용하면 자동 갱신이 가능할 수도 있음.
-
캘린더 알림에 대한 풍자적 언급
조상들처럼 여러 개의 중복된 캘린더 알림을 설정하는 것에 대한 재치 있는 표현을 좋아함.
-
보안에 대한 우려
Tailscale이 보안과 관련된 사소한 실수라도 한 번 하면, 약간의 편집증이 있는 사람들에게는 너무 위험할 수 있음을 지적함. 이에 대한 더 나은 해결책이 필요함.
-
인프라 모니터링과 자동 갱신에 대한 제안
인프라 모니터링이 있어야 하며, 모든 공개 도메인에 대해 IPv4와 IPv6를 연결하여 인증서 만료 19일 전에 경고하는 코드를 추가할 것을 제안함. 자동 갱신은 만료 20일 전에 설정함으로써 SSL 관련 중단을 방지할 수 있음.