黄仁勋表示,Blackwell 芯片推出一年来,AI 行业取得了巨大进展,AI 功能越来越强大了。另外,2024 年全球前四超算运营商共采购 130 万片 Hopper 架构芯片。2025 年,它们又购买了 360 万 Blackwell 芯片。 黄仁勋预计,数据中心建设将在 2028 年达到 1 万亿美元(IT之家 ...
DeepSeek 开源周的第三天,带来了专为 Hopper 架构 GPU 优化的矩阵乘法库——DeepGEMM。这一库支持标准矩阵计算和混合专家模型(MoE)计算,为 DeepSeek-V3/R1 的训练和推理提供强大支持,在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。 DeepGEMM 的设计理念是简洁高效 ...
别急,我们整理了一份 FlashMLA 速通指南。 据官方介绍,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列 ...