2P by neo 2023-07-31 | favorite | 댓글 1개
  • 샌프란시스코 컴퓨트는 스타트업과 연구소를 모아 대규모 모델 훈련을 위한 컴퓨팅 자원을 공동으로 구매하고 공유하는 그룹입니다.
  • 각 스타트업이 자체 GPU 클러스터를 구매하는 대신, 그룹은 스타트업 수에 비례한 총 GPU 수를 가진 클러스터를 구매합니다.
  • 소유권을 기준으로 작업 스케줄러가 모든 스타트업에게 공정하게 컴퓨팅 자원을 할당합니다.
  • 이를 통해 스타트업은 한 주 동안 512개의 GPU를 사용하여 모델 훈련을 빠르게 진행할 수 있으며, 한 달 동안 지속적으로 128개의 GPU를 채워야 하는 번거로움을 피할 수 있습니다.
  • 만약 유휴 컴퓨팅 자원이 있다면, 스케줄러는 스타트업에게 공정한 할당량보다 더 많은 자원을 할당할 수 있습니다.
  • 이 모델은 OpenAI와 Deepmind와 같은 대형 연구소에서 사용하는 것과 유사하지만, 일반적으로 작은 클러스터와 장기 계약을 가진 스타트업에게 더 접근 가능합니다.
  • 목표는 폭발적 할당과 단기 계약을 가진 H100 GPU 1개 당 약 $2.00의 컴퓨팅 자원을 제공하는 것입니다.
  • 스타트업은 양식을 작성하거나 주최자에게 연락하여 그룹에 가입할 수 있습니다.
  • 스타트업은 사전 통지 기간을 거쳐 클러스터에서 탈퇴할 수 있으며, 새로운 스타트업은 일괄적으로 추가될 수 있습니다.
  • 그룹은 작은 실험이나 좋은 가격으로 친구들의 요청을 수용하기 위해 약간의 과잉 공급을 할 수 있습니다.
  • 클러스터 구매의 재정은 은행의 도움으로 분산될 수 있습니다.
  • 그룹은 4-6주 내에 512개의 H100 GPU를 온라인으로 구비할 계획이며, 수요가 높을 경우 추가로 더 많은 자원을 추가할 수 있습니다.
  • 인프라 디버깅 메일링 리스트와 Slack 그룹은 회원들이 인프라 문제에 대한 도움을 요청할 수 있는 공간으로 제공됩니다.
Hacker News 의견
  • 프로젝트 성공을 바라며 이전에 참여한 유사한 프로젝트를 언급하는 댓글러
  • TPU의 가용성 변화와 이전 프로젝트에서 직면한 도전에 대해 반성하는 댓글러
  • 현재 프로젝트에 대한 낙관적인 태도를 표현하며 팀에게 다른 사람들의 아이디어를 적극적으로 수용할 것을 권장하는 댓글러
  • 다른 댓글러가 프로젝트의 비즈니스 모델을 AWS와 Azure와 같은 클라우드 제공업체와 비교하는 댓글러
  • 높은 비용 때문에 인프라를 캘리포니아 외부에 호스팅하는 제안
  • Lambda Labs와의 프로젝트 비교에 대한 질문
  • 프로젝트의 대학 및 대학원 학생들을 위한 잠재적인 활용에 대한 질문
  • 취미로 하는 머신 러닝에는 vast.ai를 사용하는 것을 권장
  • GPU 협동조합의 아이디어 언급
  • 프로젝트 이름의 기원과 커뮤니티 참여 계획에 대한 질문
  • H100 구매를 위한 자금 조달에 대한 질문
  • 댓글에는 두 개의 오류 메시지가 포함되어 있음