该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。 根据DeepSeek晒出的数据,普通GEMM(密集模型 ...