1P by neo 8일전 | ★ favorite | 댓글 1개

Hetzner 디버깅: powerstat, sensors, dmidecode로 문제 해결

  • 배경

    • Ubicloud는 Hetzner의 AX162 서버를 도입했으나, 심각한 신뢰성 문제를 겪음.
    • AX162 서버는 이전 모델보다 성능이 뛰어나고 가격이 저렴했으나, 16배 더 자주 충돌함.
    • 여러 하드웨어 업데이트 후에야 문제 해결됨.
  • 문제 발생

    • 첫 AX162 서버 구매 후 3주 만에 서버 충돌 발생.
    • 시스템 로그에서 NULL 바이트 발견, 이는 전원 손실과 같은 갑작스러운 실패를 의미함.
    • Hetzner는 하드웨어 검사를 했으나 이상 없음.
    • 충돌 빈도가 증가하며, Hetzner는 하드웨어 결함을 발견할 때마다 서버를 교체함.
  • 초기 조사

    • 시스템 부하: 부하가 증가하면 문제가 발생할 가능성이 있다고 생각했으나, 부하가 낮거나 없을 때도 충돌 발생.
    • 온도: 센서를 사용해 온도를 측정했으나, 충돌 시점의 온도는 평균보다 높지 않았음.
    • 결함 있는 부품: dmidecode 명령어로 하드웨어 정보를 수집했으나, 충돌이 발생한 서버와 그렇지 않은 서버 간에 큰 차이 없음.
    • 전력 소비: powerstat 도구로 전력 소비를 측정했으며, Hetzner가 전력 사용을 제한했을 가능성이 있다고 의심함.
  • 충돌률 데이터 수집 및 비교

    • 연간 고장률(AFR)을 사용해 하드웨어 신뢰성을 측정함.
    • AX162 서버는 다른 모델보다 16배 더 자주 고장 발생.
    • 첫 충돌 후 80%의 서버가 24시간 내에 두 번째 충돌을 경험함.
  • 새 하드웨어로 안정성 관찰

    • Hetzner는 결함 있는 마더보드 배치를 확인하고 교체를 권장함.
    • 새로운 마더보드로 교체 후에도 충돌 발생.
    • 최신 마더보드로 교체 후 몇 달간 모니터링한 결과, 충돌 문제가 해결됨.
  • 프로세스 개선

    • 새로운 서버 모델을 도입할 때 철저한 검토 필요.
    • 새로운 하드웨어는 비핵심 작업부터 점진적으로 도입.
    • 위험 분산을 위해 더 많은 베어 메탈 제공업체 추가.
  • 결론

    • Hetzner 서버의 초기 도입은 문제를 초래했으나, 지속적인 개선을 통해 문제 해결.
    • Ubicloud는 신뢰성과 적응성을 갖춘 클라우드 솔루션을 제공하기 위해 계속 노력할 것임.
Hacker News 의견
  • 대부분의 다른 AX 모델(AX42, AX52, AX102)도 몇 달 후에 고장 나는 심각한 신뢰성 문제를 가지고 있음. 이는 결함이 있는 메인보드에 기반을 두고 있음. Hetzner는 특정 날짜 이전에 제작된 서버의 메인보드를 대부분 교체해야 함
  • 이전 회사에서는 Hetzner에서 CPU 팬 고장이 자주 발견되었음. 이는 일반적인 HD/SSD 고장 외에도 발생함. 자체 모니터링이 필요하며, 이는 관리되지 않는 서버가 클라우드 인스턴스보다 저렴한 이유 중 하나임
  • 과거를 돌아보면, 6개월을 기다렸다면 많은 문제를 피할 수 있었을 것임. 초기 사용자는 나중에 수정되는 문제를 발견하는 경우가 많음
    • 이는 매우 좋은 조언이며, 안정성이 필요한 모든 시스템에 대해 따르고 있음
    • 보안 문제가 없다면 몇 달을 기다리거나 한두 버전 뒤에 머무름
  • Hetzner는 전력 제한 가능성을 확인하거나 부인하지 않았음
    • 전력 제한의 결과는 무엇인가? 기사에 따르면 하드웨어가 더 빨리 열화될 수 있다고 함
    • Hetzner의 반응 부족과 UbiCloud의 측정은 실제로 전력을 제한하고 있음을 시사하는 것 같음. 그렇지 않다면 그렇게 말했을 것임
  • Dell도 때때로 이 문제를 겪음. 그들의 오래된 서버 첫 배치를 받았을 때, I/O(후면) 섹션을 교체해야 했음. 이 문제를 해결한 후 거의 10년 동안 운영됨
    • 최근에 이 서버들을 은퇴시켰음. RAID 카드부터 전력 조절기까지 모든 것이 닳았음
    • 구성 변경으로 인해 완벽하게 작동하는 서버를 재부팅하고 RAID 카드를 영원히 잃는 경험은 충격적임
  • 전력 제약 하에서 기계 수를 늘리기 위해 데이터 센터 운영자는 보통 기계당 전력 사용을 제한함. 그러나 이는 메인보드가 더 빨리 열화될 수 있음
    • 이 점에 대해 설명할 수 있는 사람이 있는가? 이는 직관에 반하는 것임
    • 검색 결과에 따르면 열 스로틀링에 부딪히면 높은 작동 온도가 부품(예: 커패시터)을 더 빨리 열화시킬 수 있다고 함. 그러나 기사는 다양한 온도 센서를 조사했으며 이는 해당되지 않음
  • 전력/신호 문제나 VRM 문제일 수 있을지 궁금함. CPU가 뜨겁지 않다고 해서 보드의 다른 부분이 사양을 벗어나 치명적인 고장을 일으키지 않는다는 의미는 아님
    • 전력/신호 관련 메인보드 문제는 진단하기 어려움. 이는 다른 부품과 관련된 문제로 나타나며, 실제로 메인보드를 교체하기 전에 모든 것을 교체하게 됨
  • 현재 사용 중인 AX102에서도 유사한 일이 발생했음. 네트워크 카드와 관련된 문제로 충돌이 발생했음. 다행히도 Hetzner 지원이 하드웨어 교체에 도움이 되었음. 많은 고통을 초래했지만 하드웨어 문제 해결에 좋은 교훈이 되었음
  • 데이터 센터 경험이 있는 사람이 Hetzner가 메인보드 공급업체와 어떤 상업적 해결책을 도달했을지 추측할 수 있을까? 모든 메인보드를 무료로 교체하고 보상을 받았을 것으로 추정할 수 있을까?
  • 전력 제한이 있는지 추정하기 전에 해당 시스템에서 어떤 CPU 거버너가 실행 중인지 보고 싶음. 많은 기본 Linux 설치가 전력 절약 거버너를 실행하며, 이는 최대 주파수와 최대 전력을 제한함