Muon Elemnet - 搜索 News

月之暗面Kimi昨日发布了一份关于“Muon可扩展用于LLM训练”的新技术报告，并正式推出基于Muon训练的混合专家模型(MoE)“Moonlight”。该模型包含30亿和160亿参数两个版本，通过5.7万亿个token的训练数据，在更低浮点运算次数(FLOPs)下实现了更优性能，显著提升了帕累 ...

腾讯网28 天

代码论文全开源！月之暗面发布重磅技术报告：模型训练效率翻倍

月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》！推出了一个全新的优化器 Muon，并基于此训练出了 3B/16B 参数的混合专家模型 (MoE ...

新浪网28 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

算力需求比AdamW直降48%，OpenAI技术人员提出的训练优化算法Muon，被月之暗面团队又推进了一步！团队发现了Muon方法的Scaling Law，做出改进并证明了 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点