Show GN: Qwen3.5/3.6 hybrid 모델을 채굴카드(CMP 100-210)에서 돌리는 CUDA 추론 엔진

(github.com/Haru-neo)

저렴하게 큰 모델을 돌릴 방법이 있을까 생각하다가 cmp 100-210을 발견해서 4장을 구매 해봤어요.
HBM2에 16GB라(개당) 좋은것 같더라구요.

근데 NVIDIA가 너무 작정하고 막아놨더라구요.

그래서 vLLM, llama.cpp 기본 경로, FA, bnb 다 안 됩니다.
cuBLAS Tensor Core 건드리는 건 전부 1/64 속도로 돌거나 죽어요.

64만원치 GPU가 책상 위에서 굴러다니는 게 아까워서 직접 추론 엔진을 짰습니다.

throttle 안 걸리는 경로만 골라서:

지금은 Qwen3.5/3.6 hybrid (GDN + Attention) 모델이면 27B / 9B 둘 다 됩니다.
OpenAI 호환 API, streaming, tool calls, vision (mmproj), /no_think 다 됩니다.

벤치 (vs llama.cpp build 8462, 같은 Q8_0 GGUF, 같은 하드웨어):

솔직한 한계:

같은 환경에 갇힌 분들 도움됐으면 좋겠어요.
고1이 클로드를 이용해 만든 엔진이라 버그, 스파게티 코드등이 많을수가 있습니다.
이슈나 PR 환영합니다!

함께 보면 좋은 글 β