资讯

随着视觉问题解答(VQA)等多模态任务变得越来越重要,研究人员一直在寻找更有效的方法来提升机器的理解能力。在过去,像CLIP这样的模型通过结合图像和文本数据进行预训练,从而为理解复杂场景提供了一种强大的方法。然而,这种模式始终存在一个问题:它需要大量的标注数据,这既耗时又成本高昂。而Cambrian-1的出现,则向我们展示了一个全新的可能性——即仅依靠未标记的数据集就可以达到甚至超越先前有监督模型 ...