AMD GPU가 ‘brrr’ 속도로 돌아가게 만드는 방

▲

GN⁺ 5달전 | parent | ★ favorite | on: AMD GPU가 ‘brrr’ 속도로 돌아가게 만드는 방법(hazyresearch.stanford.edu)

Hacker News 의견

HipKittens 관련 토론을 참고하길 권함
같은 연구를 다룬 HipKittens: Fast and furious AMD kernels 글도 있음. George Hotz와 AMD 직원들의 댓글이 달려 있음
학계에서 이런 문제를 다루는 건 반갑지만, 이건 결국 AMD 내부에서 해결해야 할 문제라고 생각함
- 나는 하드웨어 회사는 하드웨어만 만드는 게 좋다고 봄. 그래야 인센티브가 순수하게 유지됨. 성능이 20% 떨어지더라도 그게 낫다고 생각함
- 완전히 동의함. AMD는 10년 전 이 문제를 미뤘고 이제서야 따라잡으려 함. 하드웨어는 훌륭하지만 펌웨어 작성 능력 부족으로 잠재력을 못 살리고 있음
- 하지만 이 연구팀은 Nvidia GPU용으로도 비슷한 소프트웨어를 만든 적이 있음. 뛰어난 연구자들이 자기 전문성을 발휘하는 것 같음
- 내가 알기로 AMD는 이미 여러 수준에서 이 문제를 다루고 있고, tinycorp와도 협력 중임
글을 보면 AMD GPU의 아키텍처적 복잡성 때문에 최적화가 어렵다는 인상을 받음. 하지만 장기적으로는 AMD의 접근이 더 잘 확장될 수도 있음. Nvidia가 2개 칩렛을 쓰는 반면 AMD는 8개 칩렛 구조라 메모리 지역성 문제가 있음. 미래에는 칩렛 수가 더 늘어날 테니, 지금의 복잡성을 다루는 경험이 장기적으로 도움이 될 수도 있음
- AMD는 고성능을 위해 warp specialization이 필요 없어서 프로그래밍이 더 단순함
많은 개발자들이 AMD GPU를 대중 개발자용으로 ‘go brrr’하게 만들려 했지만 실패했음. AMD가 왜 자체적으로 소프트웨어 문제를 해결하지 않는지 이해가 안 됨. 지금은 돈도 충분한데 개발자 고용을 안 하는 건 변명이 안 됨. 데이터센터용 GPU도 나쁘진 않지만, 개인이 ML·AI 실험을 할 때는 여전히 Nvidia가 훨씬 나음. 내 5년 된 RTX 3090이 지금까지 나온 AMD 소비자용 GPU보다 낫다고 느낌
- AMD 개발자 경험은 끔찍함. 드라이버 크래시 버그 리포트조차 받지 않음
- 나는 최근 NVidia 5090에서 AMD R9700 32GB 두 장으로 추론 서버를 바꿨는데, 완전히 긍정적인 경험이었음. Fedora 커널에서 DKMS 설정 없이 바로 작동했고, ROCm으로 컨테이너 연결도 쉬웠음. Ollama와 Storyteller 설정만 바꾸면 끝이었음. CUDA보다 훨씬 쾌적한 경험이었음
- Nvidia는 심지어 Unreal Engine 포크까지 직접 유지함. AMD는 경쟁조차 안 되는 수준임
- Nvidia는 하드웨어 회사 중 유일하게 소프트웨어 엔지니어에게 경쟁력 있는 보상을 제공함. AMD는 여전히 소프트웨어를 ‘진짜 일’로 보지 않는 문화가 남아 있고, 이런 관성은 바꾸기 어려움
Mojo가 AMD GPU에서 개발자 경험(devX)을 개선하려는 아이디어를 갖고 있었는데, 그 진행 상황이 궁금함
AMD가 소프트웨어 개선에 수십억 달러를 투자하지 않는 게 이해가 안 됨. Nvidia는 세계에서 가장 가치 있는 회사이고, AMD는 유일한 경쟁자임
- AMD도 노력 중이지만, 매년 하드웨어를 갱신하는 조직 문화를 소프트웨어 중심 문화로 전환하는 건 어렵다고 봄. 소프트웨어는 하드웨어처럼 바로 수익을 내지 않기 때문에 경영진이 우선순위를 낮게 두는 경향이 있음. 또 외부 벤더들이 오픈소스로 코드를 제공하면서 단기적으로는 좋아 보여도 장기 품질에는 악영향을 줌. 하드웨어 트렌드를 한 번만 놓쳐도 경쟁사에 뒤처질 위험이 큼
- 여러 GPU 벤더에서 일해봤는데, Nvidia만이 소프트웨어를 자산(asset) 으로 보고 투자함. 다른 회사들은 비용으로만 여김
“go brr” 밈은 개인적으로 좋아하진 않지만, Stanford 같은 곳에서 쓰이는 걸 보니 재밌음
- 사실 이미 1년 전에 ThunderKittens 발표 때 “go brr”를 썼음
- 이런 밈이 대학 공식 채널에 등장했다면, 이미 유행이 끝났다는 신호일 수도 있음
프로젝트 자체는 훌륭하지만, 왜 AMD가 이런 걸 직접 하지 않는지 의문임. 성숙한 소프트웨어 스택의 중요성을 AMD가 여전히 이해하지 못하는 것 같음. CUDA처럼 모든 카드에서 쓸 수 있는 통합 스택이 필요함. 한때 AMD가 언젠가 따라잡을 거라 믿었지만, 이제는 거의 포기한 상태임
프로젝트는 좋지만, 글 자체는 이상하게 작성된 느낌이 듦
- 글이 너무 어색함. AI에 과도하게 의존했거나, AI 문체를 흉내 낸 것 같음. “part one을 확인하라”거나 “AMD GPU를 go brr 하게 만드는 법” 같은 문장이 반복됨. 기술적인 부분도 그래프로 설명해야 할 내용을 100줄짜리 코드로 풀어쓴 점이 특히 아쉬움