cuda 기반의 llama.cpp 서버로 돌려야 성능 나옵니다.