这就是在业界甚嚣尘上的 scaling law 撞墙猜测。简而言之,机器学习的 scaling law 的指的是随着模型大小(参数量)、数据集、训练成本这三大要素的提升,大模型的性能也会有所提升(具体细节不展开)。
这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
在GTC2025的发布会上,英伟达推出了多款AI芯片架构,虽说新一代的GB300在性能上不如预期惊艳,人们对其反应冷淡,但未来的Rubin系列芯片预示着巨大的算力提升目标。尤其是在AI的发展阶段此起彼伏,英伟达的产品规划依然让人振奋。
最近,英伟达CEO黄仁勋在GTC大会上提出了一个大胆的 Scaling Law ...
对DiLoCo来说,这依然能保持不错的性能,还能一次性用更多资源,缩短总训练时间。而Data-Parallel似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。
Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law ...
BEIJING, March 21 (Xinhua) -- China's securities regulator said Friday it will advance the rule of law in the capital markets to make them more safe, well-regulated, transparent, open, vibrant and ...
周博洋:我觉得后训练和推理语境下的新Scaling Law其实跟“思考时间”有关。思维链的产生和我的偶像Donald Norman有关,他在大学痴迷玩德国扑克,这个游戏就是思考的事件越长,获胜概率才会更高。这跟Alpha Go有点像,它们会花很长时间思考,最终战胜人类。人类大脑也有快思考和慢思考,简单的事情比如约喝咖啡,很快就能决定;但复杂的事情比如讨论算法,就需要很多中间步骤和时间。
研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。
China's Supreme People's Procuratorate also upheld the principle of equal protection for the lawful rights and interests of all types of business entities, while strengthening oversight over ...