▲GN⁺ 2024-12-25 | parent | ★ favorite | on: AMD GPU의 LLM 추론 경쟁력 강화 (2023)(blog.mlc.ai)Hacker News 의견 AMD 소비자용 GPU(RX7900XTX)의 성능은 데이터센터용 GPU(MI300X)와 다르며, 이는 RDNA와 CDNA 아키텍처의 차이 때문임. 2026년쯤 AMD가 UDNA 아키텍처를 출시할 예정임. CentML에서는 AMD CDNA와 HIP 지원을 Hidet 딥러닝 컴파일러에 통합 중임 여러 스타트업들이 AMD GPU를 활용하여 Nvidia의 독점을 깨려는 시도를 하고 있음. Felafax, Lamini, tensorwave, SlashML 등이 이에 해당함. 일부는 CUDA의 장벽이 18개월 정도라고 주장함 TVM과 MLC 작업을 하던 팀이 OctoAI에서 NVIDIA로 합류했음 Phi-4 Q6을 7950x와 7900XT에서 사용해본 결과, CPU만으로도 매우 빠르며, AMD의 가정 내 사용 가능성을 확인함 ML 커뮤니티가 CUDA에서 벗어나지 않는 이유를 이해하지 못하겠음. CUDA는 폐쇄적이고 크로스 플랫폼이 아님. AI/LLM 발전으로 크로스 플랫폼 전환이 더 빨라야 했음 중고 3090은 $600-900이며, 7900보다 성능이 좋고 CUDA 덕분에 더 다재다능함 효율성을 높이는 노력이 중요함. 가격 효율성뿐만 아니라 전력과 컴퓨팅 효율성도 필요함. llama.cpp를 사용하여 일반 CPU에서 간섭을 실행해보고 있음 Modular는 AMD GPU에서 93% GPU 활용도를 달성했다고 주장하며, 내년 초 공식 미리보기 출시 예정임. Nvidia GPU 성능에 대한 긍정적인 피드백을 보고 낙관적임
Hacker News 의견
AMD 소비자용 GPU(RX7900XTX)의 성능은 데이터센터용 GPU(MI300X)와 다르며, 이는 RDNA와 CDNA 아키텍처의 차이 때문임. 2026년쯤 AMD가 UDNA 아키텍처를 출시할 예정임. CentML에서는 AMD CDNA와 HIP 지원을 Hidet 딥러닝 컴파일러에 통합 중임
여러 스타트업들이 AMD GPU를 활용하여 Nvidia의 독점을 깨려는 시도를 하고 있음. Felafax, Lamini, tensorwave, SlashML 등이 이에 해당함. 일부는 CUDA의 장벽이 18개월 정도라고 주장함
TVM과 MLC 작업을 하던 팀이 OctoAI에서 NVIDIA로 합류했음
Phi-4 Q6을 7950x와 7900XT에서 사용해본 결과, CPU만으로도 매우 빠르며, AMD의 가정 내 사용 가능성을 확인함
ML 커뮤니티가 CUDA에서 벗어나지 않는 이유를 이해하지 못하겠음. CUDA는 폐쇄적이고 크로스 플랫폼이 아님. AI/LLM 발전으로 크로스 플랫폼 전환이 더 빨라야 했음
중고 3090은 $600-900이며, 7900보다 성능이 좋고 CUDA 덕분에 더 다재다능함
효율성을 높이는 노력이 중요함. 가격 효율성뿐만 아니라 전력과 컴퓨팅 효율성도 필요함. llama.cpp를 사용하여 일반 CPU에서 간섭을 실행해보고 있음
Modular는 AMD GPU에서 93% GPU 활용도를 달성했다고 주장하며, 내년 초 공식 미리보기 출시 예정임. Nvidia GPU 성능에 대한 긍정적인 피드백을 보고 낙관적임