近日,月之暗面团队宣布其开源改进版的Muon优化器在算力需求上相较于传统优化器AdamW锐减48%。这一突破由OpenAI的技术人员提出的训练优化算法Muon演变而来,经过团队深入研究与优化,结果令人振奋。团队通过实验发现,Muon不仅在参数量最高达到1.5B的Llama架构模型上表现优异,其算力需求仅为AdamW的52%。这一进展标志着Muon的可扩展性得到了验证,为更大规模的训练奠定了基础。
月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》! 推出了一个全新的优化器 Muon,并基于此训练出了 3B/16B 参数的混合专家模型 (MoE ...
算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了 ...
The magnificent muon and its unusual wobble In 2021, physicists using the Muon g-2 experiment at Fermilab noticed a certain type of subatomic particle, called a muon, was wobbling more than expected.
Muon Space, an end-to-end space systems provider, has successfully launched the FireSat Protoflight satellite, marking a ...
克雷西 发自 凹非寺量子位 | 公众号 QbitAI 算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现 ...