
图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉-语言对齐、图像描述和多模态理解。
CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86.3%的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90.6%,在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%,在Moments-in-Time上的得分为47.4%。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91.0%,在VQA上的得分达到了82.3%,在NoCaps上的得分达到了120.6。
模型方法

图2:CoCa的架构和训练目标。

表1:CoCa的变体。图像编码器和文本解码器都是Transformer。

图3:用于视频识别的CoCa。
实验结果

图4:CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。

表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。

图5:模型大小对图像分类精度的影响。

表3:在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。

表4:在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。

表5:在MSR-VTT测试集上的零样本视频-文本检索结果。

表6:CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。

表7:在MSCOCO和NoCaps数据集上的图像描述结果。

图6:CoCa以NoCaps图像作为输入生成的文本标题示例。

表8:CoCa的消融实验。默认设置用粗体显示。

表9:视觉识别实验中使用的超参数。

表10:多模态实验中使用的超参数。