GN⁺: 지하실에서 제공하는 AI – 192GB + 8x RTX 3090
(ahmadosman.com)- 8개의 RTX 3090 그래픽 카드로 구동되는 전용 LLM 서버. 총 192GB의 VRAM
- 메타의 Llamma-3.1 405B 실행을 염두에 두고 구축
배경 이야기
- 3월에 48GB VRAM으로 LLM 실험을 진행하는 데 어려움을 겪었음
- 더 많은 VRAM이 필요하다고 느껴 새로운 시스템을 구축하기로 결정
- CPU/플랫폼 선택, 메모리 속도의 중요성, PCIe 레인의 필요성 등 여러 질문이 생김
- 여러 시간의 연구 끝에 다음과 같은 플랫폼을 선택함
- Asrock Rack ROMED8-2T 마더보드 (7x PCIe 4.0x16 슬롯, 128 PCIe 레인)
- AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz 부스트, 64 코어/128 스레드)
- 512GB DDR4-3200 3DS RDIMM 메모리
- 1600와트 전원 공급 장치 3개
- 8x RTX 3090 GPU (4x NVLink, 각 쌍당 112GB/s 데이터 전송 속도)
블로그 시리즈 예고
- 이 시스템을 조립하는 과정에서의 도전 과제
- 금속 프레임에 구멍을 뚫고 30암페어 240볼트 차단기를 추가하는 작업
- CPU 소켓 핀을 구부리는 일 (집에서 따라하지 말 것)
- PCIe 라이저의 문제점과 SAS 디바이스 어댑터, 리드라이버, 리타이머의 중요성
- NVLink 속도, PCIe 레인 대역폭, VRAM 전송 속도, Nvidia의 소프트웨어 수준에서의 P2P 네이티브 PCIe 대역폭 차단
- TensorRT-LLM, vLLM, Aphrodite Engine과 같은 추론 엔진 벤치마킹
- 자체 LLM 훈련 및 미세 조정
결론
- 기술의 발전을 보며, 2004년에 60GB HDD를 얻었을 때의 흥분을 떠올림
- 20년 후, 192GB VRAM이 많은 용량이라고 생각했던 시절을 회상할지도 모름
- 이 프로젝트를 통해 미래의 멋진 기술을 만드는 데 기여하고 싶음
GN⁺의 정리
- 이 글은 AI 모델을 위한 고성능 서버를 구축하는 과정을 다루고 있음
- 최신 GPU와 고성능 CPU를 사용하여 LLM 서버를 구축하는 방법을 설명함
- 기술 발전의 속도와 미래에 대한 기대감을 표현함
- 비슷한 기능을 가진 프로젝트로는 Nvidia의 DGX 시스템이나 Google의 TPU 등이 있음
Hacker News 의견
-
첫 번째 댓글: 개인 데이터 보호를 위해 자체 서버를 구축함. 최근 플랫폼의 출력 품질 저하로 인해 이 설정에 돈을 쓴 것을 후회하지 않음
- 텐서 병렬 처리와 배치 추론을 활용하여 멋진 작업을 수행함
- 개인 데이터를 사용하여 모델을 미세 조정하고 합성 데이터를 생성함
- 현재 학습 프로젝트로 모델을 처음부터 구축 중이며, 문제를 해결하면 튜토리얼을 작성할 계획임
- 블로그를 시작했으며, 학습과 발견에 대한 일련의 게시물을 계획 중임
- 실험하고 싶은 주제나 아이디어가 있으면 공유할 준비가 되어 있음
-
두 번째 댓글: 192GB VRAM이 많다고 생각했던 시절을 회상할 수도 있을 것 같음
- NAS용 대용량 HDD 구매가 어려워졌으며, 가격이 많이 올랐음
- AI에서도 비슷한 일이 일어날 것으로 예상됨
- 대형 클라우드 업체들은 저렴한 가정용 하드웨어에 관심이 없으며, 클라우드 서비스를 통해 데이터를 채굴하려 함
-
세 번째 댓글: 8개의 GPU를 사용하여 4K 모니터를 무경계 미니 픽셀 벽으로 변환하는 프로젝트
- 로컬 비디오 구성 및 AI 생성 배경을 위한 프로젝트임
- "The Mandalorian"의 예시를 언급하며, 실시간 포토리얼 배경을 제공함
-
네 번째 댓글: NVLink의 도움이 얼마나 되는지 궁금함
- 2개의 3090 리그를 구축했으며, EPYC으로 더 많은 카드를 사용할 수 있는지 궁금함
- 전체 비용은 약 $3500이며, 이 설정은 $12-15k에 가까울 것으로 예상됨
-
다섯 번째 댓글: 매우 멋지지만 24/7 생산적으로 활용하지 않으면 비용이 비쌈
-
여섯 번째 댓글: Tinybox와의 비용 비교를 궁금해함
- 6개의 4090을 사용하는 경우 $25k, 6개의 7900XTX를 사용하는 경우 $15k
- 전원 공급 장치, CPU, 저장 장치, 냉각, 조립, 배송 등이 포함된 전체 패키지임
-
일곱 번째 댓글: 비슷한 설정을 지하실에 가지고 있음
- 여러 노드로 구성되어 있으며 총 16개의 3090을 사용함
- 30A 240V 회로를 설치해야 했음
-
여덟 번째 댓글: 마더보드에 7개의 PCIe 슬롯이 있는데 8개의 GPU를 어떻게 연결하는지 궁금해함
- 동일한 슬롯에 두 개의 GPU를 사용하여 대역폭을 제한하는지 궁금해함
-
아홉 번째 댓글: 7개의 PCIe 4.0 x16 슬롯이 있는 경우 8번째 카드를 어떻게 연결하는지 궁금해함
-
열 번째 댓글: 이 시리즈를 읽는 것을 기대하고 있음
- 오픈 소스 모델의 비용 성능 비율에 대한 차트/데이터를 찾고 싶어함
- $/ELO 값(기계 구축 및 운영 비용과 모델의 평균 성능을 나타내는 값)을 찾고 싶어함