总结讨论
在这项工作中,我们提出了图像-文本基础模型CoCa,将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练,在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。
多模态人工智能
欢迎关注“多模态人工智能”公众号,一起进步^_^