CoCa：多模态图像

常驻编辑科普中国 2022-05-24 模型图像文本基础编码器解码器样本损失视觉语言

总结讨论

在这项工作中，我们提出了图像-文本基础模型CoCa，将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练，在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。wy4拜客生活常识网

多模态人工智能wy4拜客生活常识网

欢迎关注“多模态人工智能”公众号，一起进步^_^ wy4拜客生活常识网

首页上一页 1 23

CoCa：多模态图像

相关阅读:

热门信息

热门文章

最近发表

CoCa：多模态图像

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表