资讯

来自上海交通大学、MiniMax、复旦大学和 SII 的研究团队选择按下暂停键,进行了一次关于 RL Scaling 的重新思考(Rethinking)。 自 Deepseek-R1 发布以来,研究社区迅速响应,纷纷在各自任务中复现 R1-moment。 在过去的几个月中,越来越多的研究尝试将 RL Scaling 的成功 ...
刚刚,一位 AI 公司 CEO 细细扒皮了关于 Llama 4 的五大疑点。甚至有圈内人表示,Llama 4 证明 Scaling 已经结束了,LLM 并不能可靠推理。但更可怕的事,就是全球的 AI 进步恐将彻底停滞。 令人失望的 Llama 4,只是前奏而已。接下来我们恐将看到 —— 全球局势的改变 ...
这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清华大学共同提出。 有点意思。 这不DeepSeek前脚 ...