资讯

当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。但大多研究者们选择 7B+ 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。
目前来说,模型还没有收敛。现在多模态还处于 GPT 2 的阶段,等到了 GPT 5 ,类似于做到了连续几个 aha moment。那个时候就可以从模型到完整产品了。
“文生视频模型至今没出现aha moment” 虎嗅:考虑到现在 Deepseek 还有大厂,他们可能更有场景,你们怎么看待来自外部的竞争,智象的护城河在哪 ...
自 Deepseek-R1 发布以来,研究社区迅速响应,纷纷在各自任务中复现 R1-moment。在过去的几个月中,越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型(VLM)领域 —— 刷榜、追性能、制造 “Aha Moment”,整个社区正高速奔跑,RL for VLM ...
最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合 ...