资讯

测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
清华大学与上海AI实验室的研究者们提出了一种突破性的学习方法——TTRL(Test-Time Reinforcement Learning,测试时强化学习),一种无需任何标准答案就能让AI自己变得更聪明的方法。听起来有点像那位乡村教师教学生死记硬背定律,但这一次,学生是AI,而老师……根本不存在。
如上图所示,在模型训练的早期阶段,模型几乎没有主动检查和反思先前推理步骤。然而,随着训练的进行,模型表现出明显的反思和回溯行为,形成如逐步推理、数值替换、逐一验证和自我优化等响应模式。
RL + LLM 升级之路的四层阶梯。 2025 年伊始,RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,David Silver 去年在 RLC 上说 “(RL 受关注的程度)终将跨越 LLM 带来的低谷”,竟然来得如此之快。 PhD 这些年即将告一段落,这几个月梳理先前的工作,准备 Tutorial,借鉴了不少去年从 RLC 上听 ...
在生成式 AI 的发展历程中,我们正跨入一个激动人心的新阶段 —— 第二幕:认知工程。这一转变不仅仅是技术的迭代,更是 AI 能力本质的重新定义。那么,什么是认知工程?它与第一幕的知识工程有何本质区别?为什么它会在此时出现?这些问题将成为我们理解 AI 未来发展的关键。