파워스탯, 센서, dmidecode로 헤츠너 문제점 발견

(ubicloud.com)

1P by GN⁺ 2025-02-21 | ★ favorite | 댓글 1개

Hetzner 디버깅: powerstat, sensors, dmidecode로 문제 해결

배경
- Ubicloud는 Hetzner의 AX162 서버를 도입했으나, 심각한 신뢰성 문제를 겪음.
- AX162 서버는 이전 모델보다 성능이 뛰어나고 가격이 저렴했으나, 16배 더 자주 충돌함.
- 여러 하드웨어 업데이트 후에야 문제 해결됨.
문제 발생
- 첫 AX162 서버 구매 후 3주 만에 서버 충돌 발생.
- 시스템 로그에서 NULL 바이트 발견, 이는 전원 손실과 같은 갑작스러운 실패를 의미함.
- Hetzner는 하드웨어 검사를 했으나 이상 없음.
- 충돌 빈도가 증가하며, Hetzner는 하드웨어 결함을 발견할 때마다 서버를 교체함.
초기 조사
- 시스템 부하: 부하가 증가하면 문제가 발생할 가능성이 있다고 생각했으나, 부하가 낮거나 없을 때도 충돌 발생.
- 온도: 센서를 사용해 온도를 측정했으나, 충돌 시점의 온도는 평균보다 높지 않았음.
- 결함 있는 부품: dmidecode 명령어로 하드웨어 정보를 수집했으나, 충돌이 발생한 서버와 그렇지 않은 서버 간에 큰 차이 없음.
- 전력 소비: powerstat 도구로 전력 소비를 측정했으며, Hetzner가 전력 사용을 제한했을 가능성이 있다고 의심함.
충돌률 데이터 수집 및 비교
- 연간 고장률(AFR)을 사용해 하드웨어 신뢰성을 측정함.
- AX162 서버는 다른 모델보다 16배 더 자주 고장 발생.
- 첫 충돌 후 80%의 서버가 24시간 내에 두 번째 충돌을 경험함.
새 하드웨어로 안정성 관찰
- Hetzner는 결함 있는 마더보드 배치를 확인하고 교체를 권장함.
- 새로운 마더보드로 교체 후에도 충돌 발생.
- 최신 마더보드로 교체 후 몇 달간 모니터링한 결과, 충돌 문제가 해결됨.
프로세스 개선
- 새로운 서버 모델을 도입할 때 철저한 검토 필요.
- 새로운 하드웨어는 비핵심 작업부터 점진적으로 도입.
- 위험 분산을 위해 더 많은 베어 메탈 제공업체 추가.
결론
- Hetzner 서버의 초기 도입은 문제를 초래했으나, 지속적인 개선을 통해 문제 해결.
- Ubicloud는 신뢰성과 적응성을 갖춘 클라우드 솔루션을 제공하기 위해 계속 노력할 것임.

GN⁺ 2025-02-21 [-]

Hacker News 의견

대부분의 다른 AX 모델(AX42, AX52, AX102)도 몇 달 후에 고장 나는 심각한 신뢰성 문제를 가지고 있음. 이는 결함이 있는 메인보드에 기반을 두고 있음. Hetzner는 특정 날짜 이전에 제작된 서버의 메인보드를 대부분 교체해야 함
이전 회사에서는 Hetzner에서 CPU 팬 고장이 자주 발견되었음. 이는 일반적인 HD/SSD 고장 외에도 발생함. 자체 모니터링이 필요하며, 이는 관리되지 않는 서버가 클라우드 인스턴스보다 저렴한 이유 중 하나임
과거를 돌아보면, 6개월을 기다렸다면 많은 문제를 피할 수 있었을 것임. 초기 사용자는 나중에 수정되는 문제를 발견하는 경우가 많음
- 이는 매우 좋은 조언이며, 안정성이 필요한 모든 시스템에 대해 따르고 있음
- 보안 문제가 없다면 몇 달을 기다리거나 한두 버전 뒤에 머무름
Hetzner는 전력 제한 가능성을 확인하거나 부인하지 않았음
- 전력 제한의 결과는 무엇인가? 기사에 따르면 하드웨어가 더 빨리 열화될 수 있다고 함
- Hetzner의 반응 부족과 UbiCloud의 측정은 실제로 전력을 제한하고 있음을 시사하는 것 같음. 그렇지 않다면 그렇게 말했을 것임
Dell도 때때로 이 문제를 겪음. 그들의 오래된 서버 첫 배치를 받았을 때, I/O(후면) 섹션을 교체해야 했음. 이 문제를 해결한 후 거의 10년 동안 운영됨
- 최근에 이 서버들을 은퇴시켰음. RAID 카드부터 전력 조절기까지 모든 것이 닳았음
- 구성 변경으로 인해 완벽하게 작동하는 서버를 재부팅하고 RAID 카드를 영원히 잃는 경험은 충격적임
전력 제약 하에서 기계 수를 늘리기 위해 데이터 센터 운영자는 보통 기계당 전력 사용을 제한함. 그러나 이는 메인보드가 더 빨리 열화될 수 있음
- 이 점에 대해 설명할 수 있는 사람이 있는가? 이는 직관에 반하는 것임
- 검색 결과에 따르면 열 스로틀링에 부딪히면 높은 작동 온도가 부품(예: 커패시터)을 더 빨리 열화시킬 수 있다고 함. 그러나 기사는 다양한 온도 센서를 조사했으며 이는 해당되지 않음
전력/신호 문제나 VRM 문제일 수 있을지 궁금함. CPU가 뜨겁지 않다고 해서 보드의 다른 부분이 사양을 벗어나 치명적인 고장을 일으키지 않는다는 의미는 아님
- 전력/신호 관련 메인보드 문제는 진단하기 어려움. 이는 다른 부품과 관련된 문제로 나타나며, 실제로 메인보드를 교체하기 전에 모든 것을 교체하게 됨
현재 사용 중인 AX102에서도 유사한 일이 발생했음. 네트워크 카드와 관련된 문제로 충돌이 발생했음. 다행히도 Hetzner 지원이 하드웨어 교체에 도움이 되었음. 많은 고통을 초래했지만 하드웨어 문제 해결에 좋은 교훈이 되었음
데이터 센터 경험이 있는 사람이 Hetzner가 메인보드 공급업체와 어떤 상업적 해결책을 도달했을지 추측할 수 있을까? 모든 메인보드를 무료로 교체하고 보상을 받았을 것으로 추정할 수 있을까?
전력 제한이 있는지 추정하기 전에 해당 시스템에서 어떤 CPU 거버너가 실행 중인지 보고 싶음. 많은 기본 Linux 설치가 전력 절약 거버너를 실행하며, 이는 최대 주파수와 최대 전력을 제한함

답변달기

파워스탯, 센서, dmidecode로 헤츠너 문제점 발견

Hetzner 디버깅: powerstat, sensors, dmidecode로 문제 해결

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견