인텔 Gaudi 2 칩, Diffusion Transf

▲

xguru 2024-03-12 | parent | ★ favorite | on: 인텔 Gaudi 2 칩, Diffusion Transformer 벤치마크에서 Nvidia H100을 능가(stability.ai)

Hacker News 의견

TPUs가 A100s를 쉽게 이긴다는 사실이 흥미로움. TPUs를 사용하여 Stable Diffusion fine-tuning을 제공하는 dreamlook.ai에서 사람들은 제공 속도와 비용에 놀라워함. 하지만 큰 비밀은 없으며, 단순히 작업 단위로 더 빠르고 저렴한 하드웨어를 사용함.
새로운 하드웨어로 모델 훈련에 경쟁을 촉진하는 것은 좋지만, 이러한 기계의 이용 가능성은 매우 제한적임. 주요 클라우드 제공업체가 Gaudi2 VM을 시간당 대여하는 것을 허용하지 않으며, 인텔 자체 사이트는 40k USD 이상의 8x GPU 서버를 구매하도록 안내함. 현재는 여전히 Nvidia가 소프트웨어 스택과 가용성 면에서 우위를 점하고 있지만, 올해 말까지는 변화가 시작될 수도 있음.
NVIDIA의 H100에서 거의 92%의 이윤을 남김. 더 많은 칩 회사들이 "ML 가속기" 분야에 뛰어들지 않은 것이 놀라움.
하드웨어 메트릭이 3배 더 나아지지 않았음에도 3배 더 빠를 수 있는 이유에 대한 분석이 있으면 실제로 유용하고 통찰력 있는 정보가 될 것임. 그렇지 않으면 단순한 광고에 불과함.
H100이 거의 1년 전에 출시되었으므로 인텔이 작년 모델과 경쟁할 준비가 되었다면 괜찮음. CUDA가 매우 중요한 부분이며, 하드웨어와 소프트웨어 모두 함께 성숙하는 데 10년이 걸림을 기억해야 함.
H100이 이미 약 1년 동안 대량으로 출하되었음. Gaudi2도 비슷한 규모로 이용 가능한가? NVIDIA가 비슷한 시간대에 경쟁 부품보다 확실한 리드를 하지 못할 때까지는 NVIDIA를 절대로 무시해서는 안 됨.
Gaudi와 Ponte Vecchio가 모두 존재하는 이유에 대해 인텔 AXG 직원을 포함하여 아무도 만족스럽게 대답할 수 없었음. 인텔이 한 제품 라인에 집중하는 것이 성공 가능성을 높이지 않을까?
AI 과학자들이 요즘 어떻게 일하는지 궁금함. 정말로 Cudakernels를 해킹하나, 아니면 pytorch와 같은 고급 툴킷으로 모델을 연결하나? 후자라면, pytorch가 다양한 하드웨어에 최적화된 백엔드를 제공한다면, CUDA가 정말로 큰 장벽인가?