3P by neo 3달전 | favorite | 댓글 2개
  • 8개의 RTX 3090 그래픽 카드로 구동되는 전용 LLM 서버. 총 192GB의 VRAM
  • 메타의 Llamma-3.1 405B 실행을 염두에 두고 구축

배경 이야기

  • 3월에 48GB VRAM으로 LLM 실험을 진행하는 데 어려움을 겪었음
  • 더 많은 VRAM이 필요하다고 느껴 새로운 시스템을 구축하기로 결정
  • CPU/플랫폼 선택, 메모리 속도의 중요성, PCIe 레인의 필요성 등 여러 질문이 생김
  • 여러 시간의 연구 끝에 다음과 같은 플랫폼을 선택함
    • Asrock Rack ROMED8-2T 마더보드 (7x PCIe 4.0x16 슬롯, 128 PCIe 레인)
    • AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz 부스트, 64 코어/128 스레드)
    • 512GB DDR4-3200 3DS RDIMM 메모리
    • 1600와트 전원 공급 장치 3개
    • 8x RTX 3090 GPU (4x NVLink, 각 쌍당 112GB/s 데이터 전송 속도)

블로그 시리즈 예고

  • 이 시스템을 조립하는 과정에서의 도전 과제
    • 금속 프레임에 구멍을 뚫고 30암페어 240볼트 차단기를 추가하는 작업
    • CPU 소켓 핀을 구부리는 일 (집에서 따라하지 말 것)
  • PCIe 라이저의 문제점과 SAS 디바이스 어댑터, 리드라이버, 리타이머의 중요성
  • NVLink 속도, PCIe 레인 대역폭, VRAM 전송 속도, Nvidia의 소프트웨어 수준에서의 P2P 네이티브 PCIe 대역폭 차단
  • TensorRT-LLM, vLLM, Aphrodite Engine과 같은 추론 엔진 벤치마킹
  • 자체 LLM 훈련 및 미세 조정

결론

  • 기술의 발전을 보며, 2004년에 60GB HDD를 얻었을 때의 흥분을 떠올림
  • 20년 후, 192GB VRAM이 많은 용량이라고 생각했던 시절을 회상할지도 모름
  • 이 프로젝트를 통해 미래의 멋진 기술을 만드는 데 기여하고 싶음

GN⁺의 정리

  • 이 글은 AI 모델을 위한 고성능 서버를 구축하는 과정을 다루고 있음
  • 최신 GPU와 고성능 CPU를 사용하여 LLM 서버를 구축하는 방법을 설명함
  • 기술 발전의 속도와 미래에 대한 기대감을 표현함
  • 비슷한 기능을 가진 프로젝트로는 Nvidia의 DGX 시스템이나 Google의 TPU 등이 있음

그저 부러울 뿐입니다..

Hacker News 의견
  • 첫 번째 댓글: 개인 데이터 보호를 위해 자체 서버를 구축함. 최근 플랫폼의 출력 품질 저하로 인해 이 설정에 돈을 쓴 것을 후회하지 않음

    • 텐서 병렬 처리와 배치 추론을 활용하여 멋진 작업을 수행함
    • 개인 데이터를 사용하여 모델을 미세 조정하고 합성 데이터를 생성함
    • 현재 학습 프로젝트로 모델을 처음부터 구축 중이며, 문제를 해결하면 튜토리얼을 작성할 계획임
    • 블로그를 시작했으며, 학습과 발견에 대한 일련의 게시물을 계획 중임
    • 실험하고 싶은 주제나 아이디어가 있으면 공유할 준비가 되어 있음
  • 두 번째 댓글: 192GB VRAM이 많다고 생각했던 시절을 회상할 수도 있을 것 같음

    • NAS용 대용량 HDD 구매가 어려워졌으며, 가격이 많이 올랐음
    • AI에서도 비슷한 일이 일어날 것으로 예상됨
    • 대형 클라우드 업체들은 저렴한 가정용 하드웨어에 관심이 없으며, 클라우드 서비스를 통해 데이터를 채굴하려 함
  • 세 번째 댓글: 8개의 GPU를 사용하여 4K 모니터를 무경계 미니 픽셀 벽으로 변환하는 프로젝트

    • 로컬 비디오 구성 및 AI 생성 배경을 위한 프로젝트임
    • "The Mandalorian"의 예시를 언급하며, 실시간 포토리얼 배경을 제공함
  • 네 번째 댓글: NVLink의 도움이 얼마나 되는지 궁금함

    • 2개의 3090 리그를 구축했으며, EPYC으로 더 많은 카드를 사용할 수 있는지 궁금함
    • 전체 비용은 약 $3500이며, 이 설정은 $12-15k에 가까울 것으로 예상됨
  • 다섯 번째 댓글: 매우 멋지지만 24/7 생산적으로 활용하지 않으면 비용이 비쌈

  • 여섯 번째 댓글: Tinybox와의 비용 비교를 궁금해함

    • 6개의 4090을 사용하는 경우 $25k, 6개의 7900XTX를 사용하는 경우 $15k
    • 전원 공급 장치, CPU, 저장 장치, 냉각, 조립, 배송 등이 포함된 전체 패키지임
  • 일곱 번째 댓글: 비슷한 설정을 지하실에 가지고 있음

    • 여러 노드로 구성되어 있으며 총 16개의 3090을 사용함
    • 30A 240V 회로를 설치해야 했음
  • 여덟 번째 댓글: 마더보드에 7개의 PCIe 슬롯이 있는데 8개의 GPU를 어떻게 연결하는지 궁금해함

    • 동일한 슬롯에 두 개의 GPU를 사용하여 대역폭을 제한하는지 궁금해함
  • 아홉 번째 댓글: 7개의 PCIe 4.0 x16 슬롯이 있는 경우 8번째 카드를 어떻게 연결하는지 궁금해함

  • 열 번째 댓글: 이 시리즈를 읽는 것을 기대하고 있음

    • 오픈 소스 모델의 비용 성능 비율에 대한 차트/데이터를 찾고 싶어함
    • $/ELO 값(기계 구축 및 운영 비용과 모델의 평균 성능을 나타내는 값)을 찾고 싶어함