Nokl Hopper - 搜索 News

DeepSeek 开源周的第三天，带来了专为 Hopper 架构 GPU 优化的矩阵乘法库——DeepGEMM。这一库支持标准矩阵计算和混合专家模型（MoE）计算，为 DeepSeek-V3/R1 的训练和推理提供强大支持，在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。 DeepGEMM 的设计理念是简洁高效 ...

爱范儿25 天

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

别急，我们整理了一份 FlashMLA 速通指南。据官方介绍，FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA（Multi-Head Latent Attention）解码内核，支持变长序列 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点