지하실에서 제공하는 AI – 192GB + 8x RTX 3090

(ahmadosman.com)

3P by GN⁺ 10달전 | ★ favorite | 댓글 2개

8개의 RTX 3090 그래픽 카드로 구동되는 전용 LLM 서버. 총 192GB의 VRAM
메타의 Llamma-3.1 405B 실행을 염두에 두고 구축

배경 이야기

3월에 48GB VRAM으로 LLM 실험을 진행하는 데 어려움을 겪었음
더 많은 VRAM이 필요하다고 느껴 새로운 시스템을 구축하기로 결정
CPU/플랫폼 선택, 메모리 속도의 중요성, PCIe 레인의 필요성 등 여러 질문이 생김
여러 시간의 연구 끝에 다음과 같은 플랫폼을 선택함
- Asrock Rack ROMED8-2T 마더보드 (7x PCIe 4.0x16 슬롯, 128 PCIe 레인)
- AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz 부스트, 64 코어/128 스레드)
- 512GB DDR4-3200 3DS RDIMM 메모리
- 1600와트 전원 공급 장치 3개
- 8x RTX 3090 GPU (4x NVLink, 각 쌍당 112GB/s 데이터 전송 속도)

블로그 시리즈 예고

이 시스템을 조립하는 과정에서의 도전 과제
- 금속 프레임에 구멍을 뚫고 30암페어 240볼트 차단기를 추가하는 작업
- CPU 소켓 핀을 구부리는 일 (집에서 따라하지 말 것)
PCIe 라이저의 문제점과 SAS 디바이스 어댑터, 리드라이버, 리타이머의 중요성
NVLink 속도, PCIe 레인 대역폭, VRAM 전송 속도, Nvidia의 소프트웨어 수준에서의 P2P 네이티브 PCIe 대역폭 차단
TensorRT-LLM, vLLM, Aphrodite Engine과 같은 추론 엔진 벤치마킹
자체 LLM 훈련 및 미세 조정

결론

기술의 발전을 보며, 2004년에 60GB HDD를 얻었을 때의 흥분을 떠올림
20년 후, 192GB VRAM이 많은 용량이라고 생각했던 시절을 회상할지도 모름
이 프로젝트를 통해 미래의 멋진 기술을 만드는 데 기여하고 싶음

GN⁺의 정리

이 글은 AI 모델을 위한 고성능 서버를 구축하는 과정을 다루고 있음
최신 GPU와 고성능 CPU를 사용하여 LLM 서버를 구축하는 방법을 설명함
기술 발전의 속도와 미래에 대한 기대감을 표현함
비슷한 기능을 가진 프로젝트로는 Nvidia의 DGX 시스템이나 Google의 TPU 등이 있음

▲

brainer 10달전 [-]

그저 부러울 뿐입니다..

답변달기

▲

GN⁺ 10달전 [-]

Hacker News 의견

첫 번째 댓글: 개인 데이터 보호를 위해 자체 서버를 구축함. 최근 플랫폼의 출력 품질 저하로 인해 이 설정에 돈을 쓴 것을 후회하지 않음
- 텐서 병렬 처리와 배치 추론을 활용하여 멋진 작업을 수행함
- 개인 데이터를 사용하여 모델을 미세 조정하고 합성 데이터를 생성함
- 현재 학습 프로젝트로 모델을 처음부터 구축 중이며, 문제를 해결하면 튜토리얼을 작성할 계획임
- 블로그를 시작했으며, 학습과 발견에 대한 일련의 게시물을 계획 중임
- 실험하고 싶은 주제나 아이디어가 있으면 공유할 준비가 되어 있음
두 번째 댓글: 192GB VRAM이 많다고 생각했던 시절을 회상할 수도 있을 것 같음
- NAS용 대용량 HDD 구매가 어려워졌으며, 가격이 많이 올랐음
- AI에서도 비슷한 일이 일어날 것으로 예상됨
- 대형 클라우드 업체들은 저렴한 가정용 하드웨어에 관심이 없으며, 클라우드 서비스를 통해 데이터를 채굴하려 함
세 번째 댓글: 8개의 GPU를 사용하여 4K 모니터를 무경계 미니 픽셀 벽으로 변환하는 프로젝트
- 로컬 비디오 구성 및 AI 생성 배경을 위한 프로젝트임
- "The Mandalorian"의 예시를 언급하며, 실시간 포토리얼 배경을 제공함
네 번째 댓글: NVLink의 도움이 얼마나 되는지 궁금함
- 2개의 3090 리그를 구축했으며, EPYC으로 더 많은 카드를 사용할 수 있는지 궁금함
- 전체 비용은 약 $3500이며, 이 설정은 $12-15k에 가까울 것으로 예상됨
다섯 번째 댓글: 매우 멋지지만 24/7 생산적으로 활용하지 않으면 비용이 비쌈
여섯 번째 댓글: Tinybox와의 비용 비교를 궁금해함
- 6개의 4090을 사용하는 경우 $25k, 6개의 7900XTX를 사용하는 경우 $15k
- 전원 공급 장치, CPU, 저장 장치, 냉각, 조립, 배송 등이 포함된 전체 패키지임
일곱 번째 댓글: 비슷한 설정을 지하실에 가지고 있음
- 여러 노드로 구성되어 있으며 총 16개의 3090을 사용함
- 30A 240V 회로를 설치해야 했음
여덟 번째 댓글: 마더보드에 7개의 PCIe 슬롯이 있는데 8개의 GPU를 어떻게 연결하는지 궁금해함
- 동일한 슬롯에 두 개의 GPU를 사용하여 대역폭을 제한하는지 궁금해함
아홉 번째 댓글: 7개의 PCIe 4.0 x16 슬롯이 있는 경우 8번째 카드를 어떻게 연결하는지 궁금해함
열 번째 댓글: 이 시리즈를 읽는 것을 기대하고 있음
- 오픈 소스 모델의 비용 성능 비율에 대한 차트/데이터를 찾고 싶어함
- $/ELO 값(기계 구축 및 운영 비용과 모델의 평균 성능을 나타내는 값)을 찾고 싶어함

답변달기