30페타바이트 하드 드라이브로 프리트레이닝용 스토리지

▲

GN⁺ 7달전 | parent | ★ favorite | on: 30페타바이트 하드 드라이브로 프리트레이닝용 스토리지 클러스터 구축(si.inc)

Hacker News 의견

처음 커리어를 시작할 때는 온프레미스가 당연한 환경이었음, 오래 가는 하드웨어는 결국 정성을 쏟게 되고 각 서버마다 상태가 누적됨, 시간이 지나서 하드웨어 성능이 부족해지면 내부 팀을 통해 새로운 하드웨어를 기존 리스트에서 골라야 하고 추가 비용 승인도 받아야 해서 번거로움이 있음, 하드웨어 교체 과정이나 펫같이 아껴온 장비를 철저히 분리해서 새 장비로 전환하는 과정에서 프로젝트가 지연되기도 함, 클라우드가 등장하면서 “이제는 무조건 클라우드 전환”이라는 생각을 갖게 됐음, 그런데 시간이 지나면 자신과 조직이 직접 하드웨어 관리하는 법을 잊게 되고, 결국 다시 그 기술을 되살리지 않으면 좋은 선택이었던 클라우드가 점점 덜 매력적인 선택이 됨, 그래서 이런 기술을 다시 기르게 해줘 고마움
- 우리는 좀 독특한 상황임, 초기부터 하이퍼스케일 클라우드를 운영비로 감당할 수 없는 입장이어서 어쩔 수 없이 자체 기술을 키워왔음, 생각보다 그리 어렵지 않고 당분간은 이 방식으로 계속 할 예정임, 다만 언급한 상태 누적 문제는 좀 보이고 있음
- 기억 속 온프레미스는 항상 비용이 더 저렴했음, 여러 물류 장애물이 사라지고 하나의 청구서로 편리해지는 점이 있었음, 클라우드 각광받을 때 조언은 항상 온프레미스를 쓰고, 갑작스럽게 트래픽 오르내릴 때만 클라우드를 써라는 거였음, 그런데 임시 확장 사용이 점점 상시 사용이 되고, 개발자들이 새로운 머신을 바로 띄우는 데에만 의존하게 됨, 이제는 모두가 클라우드를 기본 상태로 여기게 됐음, 그 과정에서 실제 비용을 제대로 감지할 기반을 잃었고 클라우드와 온프레미스 간의 비용 차이가 점점 더 벌어졌음
- Docker는 서버를 펫이 아닌 존재로 만들어 주는 아주 훌륭한 도구임, 랙에 있는 서버가 그냥 또 하나의 K3나 K8 노드로 취급돼서 펫처럼 다루지 않게 됨, 이 점이 정말 좋음, VM도 비슷하게 얘기할 수 있겠지만 결국 VM 자체가 펫이 됨, 물론 이미지를 만들거나 스냅샷은 가능하지만 Docker에서 느껴지는 변화와는 다름
- 한 번 더 이런 도전을 해볼까 하는 농담식 질문
.inc 두 글자 도메인을 아무렇지 않게 살 수 있을 정도로 돈이 많은 스타트업은 자금이 과도하게 많은 것임, 예전 스타트업에서 사무실에 얼마나 많은 Aeron 의자가 있는지 세는 것과 같은 현상임, 좋은 신호는 아님
- 사용 안 된 .inc 두 글자 도메인이 연 $2300에 팔리고 있음, 개발자 한 명 인건비의 5%도 안 되는 금액임
- .inc 도메인 이름에 실질적 가치가 있는지는 의문임
재밌는 글임, 읽으면서 대리만족 얻음, 이런 경험을 더 재밌게 보려면 사진이 좀 더 많았으면 하는 바람임
- 만약 작성자들이 댓글 달면 직접 Standard Intelligence PBC가 무슨 일을 하는지 궁금함, Public Benefit Corporation인지, 아니면 어떤 프로젝트 하고 있는지 물어보고 싶음
기술적인 내용이 자세하게 써 있어서 좋았음, 궁금한 게 있는데, 콜로케이션 공간을 구하는 과정이 어땠는지 알고 싶음, 브로커를 썼는지, 가격 협상으로 처음 견적에서 실제로 낸 가격이 얼마나 달랐는지 궁금함
- 샌프란시스코와 프리몬트 내 대부분의 콜로케이션 업체에 견적을 요청했음, 견적과 실제로 결제한 가격 차이는 없었음, 다만 조건과 일회성 비용은 협상함
링크된 Discord 블로그 포스트도 흥미로움, 주로 진지한 내용이지만 이런 재밌는 부분도 있었음: 월드컵 골이 들어가면 그 데이터가 모니터링 그래프에 바로 반영되어 팀원들이 미팅 중 축구 경기를 본 걸 업무용 모니터링으로 둘러댈 수 있었음, 시스템 실 사용량이랄지, Discord가 “페타바이트 미만” 스토리지로 메시지를 저장한다는 근거로 인용됐음, 추측하건대 이 글의 노드 크기와 갯수로 계산하면 예전 클러스터가 708TB, 새로운 셋업이 648TB 정도로 나온다고 함, (성장 여력 포함)
저장 자체는 매우 저렴함, 그런데 트레이닝과 네트워킹 셋업 부분이 이해가 안 됨, 다른 댓글에서 GPU가 한 군데에 있지 않다고 들었는데, 그러면 여러 사이트 간 100Gbps로만 학습 데이터를 주고 받아야 함, 이렇게 하면 프리트레이닝 과정에서 병목이 생기지 않을지 걱정임
- 현재는 100기가 링크 한 줄만 갖고 있고, 일단 GPU 클러스터들도 데이터 송수신이 그 정도만 처리 가능함, 앞으로 확장하면서 대역폭과 저장공간도 늘릴 예정임, 참고로 콜로 내에 4090 여러 대가 있는데, 데이터 분할이나 임베딩 작업에는 엄청 유용했음
사이즈가 이 정도 나오는 워크로드라면 AWS나 다른 클라우드에서도 프라이빗 견적을 충분히 받아볼 수 있음, S3의 경우 0.5PB만 돼도 별도 견적을 받을 수 있음, 전체 비용 자체가 따로 관리하는 것보다 더 싸다는 의미는 아니지만, CSP의 리테일 가격과 이베이에서 구한 장비 + 무료 노동(피자값 제외) 비교가 온전한 비교는 아님
- AWS나 클라우드에서 egress 비용이 정말 핵심임, 그 부분은 협상 시도해도 전혀 양보해주지 않음, AI 트레이닝용으로는 아예 쓸 수 없는 수준임, 클라우드플레어 견적은 관리형 오브젝트 버킷 스토리지 중에서도 저렴한 편임, 자체 클러스터를 구축하면 관리형 서비스와의 차이가 작아지긴 했음, 자체 구축이 협상력을 주기도 하고, 그러나 관리형 버킷은 단순 프리트레이닝 저장용으로는 지나치게 오버스펙임, Glacier가 아카이브 용도로는 가성비 좋은데 ML 용도로는 딱 맞는 제품이 아직 없음
- 구체적으로 어느 정도의 딜을 할 수 있다는 것인지 궁금함, 절반 이상 할인도 가능한지 궁금함
드라이브 장착하는 작업을 함께해서 즐거웠음, 이렇게 많은 데이터를 실제로 다루는 작업이 가장 신나는 경험임 :P
디스크 장애율에 대한 언급이 없음, 몇 달 지나고 나서 상태가 어떤지 궁금함
- 예전에 올린 경험인데, 디스크 어레이 여러 개 올릴 때 대량의 드라이브 장애가 발생한 적 있음, 금요일 오후에 랙 세팅하고 주말 동안 손대지 않는 채 간단한 쉘 스크립트로 데이터 읽기/쓰기 테스트를 돌렸음, 월요일에 와보니 거의 절반에 가까운 디스크가 망가진 상태로 아무 로그도 남지 않음, 스트라이핑 과정에 문제 있었는지, 스트레스 테스트에서 터졌는지 알 길이 없음, 공장 불량 배치였고, 같은 회사 고객 여러 명이 불만을 제기함, 제조사에서 전량 교환해줬고, 프로덕션 투입만 늦춰졌음, 그 후에는 1년 동안 아무런 장애가 없었음
- 최근 10년 전과 비교해 디스크 장애율이 매우 낮아졌음, 예전에는 한 주에 10개도 넘게 교체했지만, 지금은 드물게 일어나는 일임, Backblaze의 하드디스크 통계만 확인해도 충분하다고 생각함
- 해당 클러스터는 엔터프라이즈 드라이브를 쓴다고 했는데, 비용을 아끼려다 보면 나중에 큰 손해가 날 수도 있음, 개인적으로 홈 서버용으로 중고 드라이브를 써보니 성능 편차가 너무 심해서 별로였음
- 좋은 지적임