- 샌프란시스코 컴퓨트는 스타트업과 연구소를 모아 대규모 모델 훈련을 위한 컴퓨팅 자원을 공동으로 구매하고 공유하는 그룹입니다.
- 각 스타트업이 자체 GPU 클러스터를 구매하는 대신, 그룹은 스타트업 수에 비례한 총 GPU 수를 가진 클러스터를 구매합니다.
- 소유권을 기준으로 작업 스케줄러가 모든 스타트업에게 공정하게 컴퓨팅 자원을 할당합니다.
- 이를 통해 스타트업은 한 주 동안 512개의 GPU를 사용하여 모델 훈련을 빠르게 진행할 수 있으며, 한 달 동안 지속적으로 128개의 GPU를 채워야 하는 번거로움을 피할 수 있습니다.
- 만약 유휴 컴퓨팅 자원이 있다면, 스케줄러는 스타트업에게 공정한 할당량보다 더 많은 자원을 할당할 수 있습니다.
- 이 모델은 OpenAI와 Deepmind와 같은 대형 연구소에서 사용하는 것과 유사하지만, 일반적으로 작은 클러스터와 장기 계약을 가진 스타트업에게 더 접근 가능합니다.
- 목표는 폭발적 할당과 단기 계약을 가진 H100 GPU 1개 당 약 $2.00의 컴퓨팅 자원을 제공하는 것입니다.
- 스타트업은 양식을 작성하거나 주최자에게 연락하여 그룹에 가입할 수 있습니다.
- 스타트업은 사전 통지 기간을 거쳐 클러스터에서 탈퇴할 수 있으며, 새로운 스타트업은 일괄적으로 추가될 수 있습니다.
- 그룹은 작은 실험이나 좋은 가격으로 친구들의 요청을 수용하기 위해 약간의 과잉 공급을 할 수 있습니다.
- 클러스터 구매의 재정은 은행의 도움으로 분산될 수 있습니다.
- 그룹은 4-6주 내에 512개의 H100 GPU를 온라인으로 구비할 계획이며, 수요가 높을 경우 추가로 더 많은 자원을 추가할 수 있습니다.
- 인프라 디버깅 메일링 리스트와 Slack 그룹은 회원들이 인프라 문제에 대한 도움을 요청할 수 있는 공간으로 제공됩니다.