C++와 CUDA를 사용하여 처음부터 LLM 추론 엔진

작성자는 자신의 블로그 글이 주목받아 기쁘며, 피드백을 듣고 싶어함
한 독자는 글이 훌륭하다고 칭찬하며, 작성 시간에 대해 궁금해함
- GPGPU 분야에서 일하는 사람으로서 비슷한 글을 쓰고 싶지만, 소요 시간의 불확실성 때문에 망설이고 있음
다른 독자는 코드가 tensor cores나 wgmma 명령어를 활용하지 않는다고 생각함
- 이러한 프로그래밍은 여러 작업을 동시에 처리해야 하므로 어렵다고 설명함
- 대역폭 제한으로 인해 추가적인 연산이 필요 없을 수도 있다고 언급함
- 블로그의 코드는 다른 가속기로 이식할 때 잘 작동할 가능성이 높다고 평가함
- wgmma를 사용하면 Nvidia의 세대 간 이식성이 떨어질 수 있다고 우려함
또 다른 독자는 이와 유사한 Python 자료를 찾고 있으며, 팀과 공유하고 싶어함
- 성능보다는 개념적으로 완전하고 튜토리얼 스타일로 간결한 자료를 원함
한 사용자는 자신의 Mistral 버전과 토큰/초 성능을 비교하고 싶어함
- README의 양자화 섹션을 참고하라고 권장함
__shfl_down이 요즘은 warp 동기화 문제 때문에 추천되지 않는다는 의견이 있음