Muon Particle - 搜索 News

月之暗面Kimi昨日发布了一份关于“Muon可扩展用于LLM训练”的新技术报告，并正式推出基于Muon训练的混合专家模型(MoE)“Moonlight”。该模型包含30亿和160亿参数两个版本，通过5.7万亿个token的训练数据，在更低浮点运算次数(FLOPs)下实现了更优性能，显著提升了帕累 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点