샌프란시스코 컴퓨트: 연구 및 스타트업을 위한 512 H100s가 2달러 이하의 시간당 가격으로 제공

(sfcompute.org)

2P by GN⁺ 2023-07-31 | ★ favorite | 댓글 1개

샌프란시스코 컴퓨트는 스타트업과 연구소를 모아 대규모 모델 훈련을 위한 컴퓨팅 자원을 공동으로 구매하고 공유하는 그룹입니다.
각 스타트업이 자체 GPU 클러스터를 구매하는 대신, 그룹은 스타트업 수에 비례한 총 GPU 수를 가진 클러스터를 구매합니다.
소유권을 기준으로 작업 스케줄러가 모든 스타트업에게 공정하게 컴퓨팅 자원을 할당합니다.
이를 통해 스타트업은 한 주 동안 512개의 GPU를 사용하여 모델 훈련을 빠르게 진행할 수 있으며, 한 달 동안 지속적으로 128개의 GPU를 채워야 하는 번거로움을 피할 수 있습니다.
만약 유휴 컴퓨팅 자원이 있다면, 스케줄러는 스타트업에게 공정한 할당량보다 더 많은 자원을 할당할 수 있습니다.
이 모델은 OpenAI와 Deepmind와 같은 대형 연구소에서 사용하는 것과 유사하지만, 일반적으로 작은 클러스터와 장기 계약을 가진 스타트업에게 더 접근 가능합니다.
목표는 폭발적 할당과 단기 계약을 가진 H100 GPU 1개 당 약 $2.00의 컴퓨팅 자원을 제공하는 것입니다.
스타트업은 양식을 작성하거나 주최자에게 연락하여 그룹에 가입할 수 있습니다.
스타트업은 사전 통지 기간을 거쳐 클러스터에서 탈퇴할 수 있으며, 새로운 스타트업은 일괄적으로 추가될 수 있습니다.
그룹은 작은 실험이나 좋은 가격으로 친구들의 요청을 수용하기 위해 약간의 과잉 공급을 할 수 있습니다.
클러스터 구매의 재정은 은행의 도움으로 분산될 수 있습니다.
그룹은 4-6주 내에 512개의 H100 GPU를 온라인으로 구비할 계획이며, 수요가 높을 경우 추가로 더 많은 자원을 추가할 수 있습니다.
인프라 디버깅 메일링 리스트와 Slack 그룹은 회원들이 인프라 문제에 대한 도움을 요청할 수 있는 공간으로 제공됩니다.

GN⁺ 2023-07-31 [-]

Hacker News 의견

프로젝트 성공을 바라며 이전에 참여한 유사한 프로젝트를 언급하는 댓글러
TPU의 가용성 변화와 이전 프로젝트에서 직면한 도전에 대해 반성하는 댓글러
현재 프로젝트에 대한 낙관적인 태도를 표현하며 팀에게 다른 사람들의 아이디어를 적극적으로 수용할 것을 권장하는 댓글러
다른 댓글러가 프로젝트의 비즈니스 모델을 AWS와 Azure와 같은 클라우드 제공업체와 비교하는 댓글러
높은 비용 때문에 인프라를 캘리포니아 외부에 호스팅하는 제안
Lambda Labs와의 프로젝트 비교에 대한 질문
프로젝트의 대학 및 대학원 학생들을 위한 잠재적인 활용에 대한 질문
취미로 하는 머신 러닝에는 vast.ai를 사용하는 것을 권장
GPU 협동조합의 아이디어 언급
프로젝트 이름의 기원과 커뮤니티 참여 계획에 대한 질문
H100 구매를 위한 자금 조달에 대한 질문
댓글에는 두 개의 오류 메시지가 포함되어 있음

답변달기

샌프란시스코 컴퓨트: 연구 및 스타트업을 위한 512 H100s가 2달러 이하의 시간당 가격으로 제공

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견