资讯
测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
AIMO 可是 AI 领域超重磅的竞赛,总奖金高达 1000 万美元,旨在激励开发能和国际数学奥林匹克顶尖选手媲美的开源 AI 模型。这次比赛题目涵盖代数、组合数学等多个领域,难度达到国家奥林匹克竞赛级别,都是全新创作的题目,就为了考验 AI ...
如上图所示,在模型训练的早期阶段,模型几乎没有主动检查和反思先前推理步骤。然而,随着训练的进行,模型表现出明显的反思和回溯行为,形成如逐步推理、数值替换、逐一验证和自我优化等响应模式。
BEIJING, Apr 11 (China Economic Net) - China has nearly closed the artificial intelligence (AI) performance gap with the United States, with its leading models achieving near parity with American ...
花友@橙橙Cheng是一位理科学霸,当年因为数学竞赛保送到清华大学,现在是商学院统计学方向的数学老师,也是一位妈妈,带着孩子学数学已经三年了,小朋友现在对数学很有兴趣,甚至能在妈妈的带领下,阅读一些简单的专业书籍。回顾这三年的启蒙,花友@橙橙Chen ...
在生成式 AI 的发展历程中,我们正跨入一个激动人心的新阶段 —— 第二幕:认知工程。这一转变不仅仅是技术的迭代,更是 AI 能力本质的重新定义。那么,什么是认知工程?它与第一幕的知识工程有何本质区别?为什么它会在此时出现?这些问题将成为我们理解 AI 未来发展的关键。
研究发现,推理模型(如DeepSeek-R1、o1)遇到「缺失前提」(MiP)的问题时,这些模型往往表现失常:回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究,深入剖析推理模型在MiP问题上的「过度思考」现象,揭示其背后的行为模式 ...
近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。然而,在实现高性能的同时,复杂的训练策略、冗长的提示工程和对外部评分系统的依赖仍是现实挑战。 近日,由 a-m-team 团队提出的一项新研究提出了一个 ...
千亿参数内最强推理大模型,刚刚易主了。32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner ...
Skywork-OR1系列模型现已全面开源,模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现 ...
机器之心报道机器之心编辑部近日,Deepseek R1 等一系列推理大语言模型已成为 2025 年最热门的话题之一。在过去的几周里,研究人员推出了许多改进推理的新策略,包括扩展简单测试 - 时间规模化(S1)、关联思维链(Chain of Associated thoughts)、Inner Transformer ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果