▲GN⁺ 2024-12-16 | parent | ★ favorite | on: C++와 CUDA를 사용하여 처음부터 LLM 추론 엔진 만들기(andrewkchan.dev)Hacker News 의견 작성자는 자신의 블로그 글이 주목받아 기쁘며, 피드백을 듣고 싶어함 한 독자는 글이 훌륭하다고 칭찬하며, 작성 시간에 대해 궁금해함 GPGPU 분야에서 일하는 사람으로서 비슷한 글을 쓰고 싶지만, 소요 시간의 불확실성 때문에 망설이고 있음 다른 독자는 코드가 tensor cores나 wgmma 명령어를 활용하지 않는다고 생각함 이러한 프로그래밍은 여러 작업을 동시에 처리해야 하므로 어렵다고 설명함 대역폭 제한으로 인해 추가적인 연산이 필요 없을 수도 있다고 언급함 블로그의 코드는 다른 가속기로 이식할 때 잘 작동할 가능성이 높다고 평가함 wgmma를 사용하면 Nvidia의 세대 간 이식성이 떨어질 수 있다고 우려함 또 다른 독자는 이와 유사한 Python 자료를 찾고 있으며, 팀과 공유하고 싶어함 성능보다는 개념적으로 완전하고 튜토리얼 스타일로 간결한 자료를 원함 한 사용자는 자신의 Mistral 버전과 토큰/초 성능을 비교하고 싶어함 README의 양자화 섹션을 참고하라고 권장함 __shfl_down이 요즘은 warp 동기화 문제 때문에 추천되지 않는다는 의견이 있음
Hacker News 의견