首页 > 社交 > 科普中国

CoCa:多模态图像

常驻编辑 科普中国 2022-05-24 模型   图像   文本   基础   编码器   解码器   样本   损失   视觉   语言
wy4拜客生活常识网

wy4拜客生活常识网

图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉-语言对齐、图像描述和多模态理解。wy4拜客生活常识网

CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86.3%的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90.6%,在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%,在Moments-in-Time上的得分为47.4%。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91.0%,在VQA上的得分达到了82.3%,在NoCaps上的得分达到了120.6。wy4拜客生活常识网

模型方法wy4拜客生活常识网

wy4拜客生活常识网

图2:CoCa的架构和训练目标。wy4拜客生活常识网

wy4拜客生活常识网

表1:CoCa的变体。图像编码器和文本解码器都是Transformer。wy4拜客生活常识网

wy4拜客生活常识网

图3:用于视频识别的CoCa。wy4拜客生活常识网

实验结果wy4拜客生活常识网

wy4拜客生活常识网

图4:CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。wy4拜客生活常识网

wy4拜客生活常识网

表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。wy4拜客生活常识网

wy4拜客生活常识网

图5:模型大小对图像分类精度的影响。wy4拜客生活常识网

wy4拜客生活常识网

表3:在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。wy4拜客生活常识网

wy4拜客生活常识网

表4:在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。wy4拜客生活常识网

wy4拜客生活常识网

表5:在MSR-VTT测试集上的零样本视频-文本检索结果。wy4拜客生活常识网

wy4拜客生活常识网

表6:CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。wy4拜客生活常识网

wy4拜客生活常识网

表7:在MSCOCO和NoCaps数据集上的图像描述结果。wy4拜客生活常识网

wy4拜客生活常识网

图6:CoCa以NoCaps图像作为输入生成的文本标题示例。wy4拜客生活常识网

wy4拜客生活常识网

表8:CoCa的消融实验。默认设置用粗体显示。wy4拜客生活常识网

wy4拜客生活常识网

表9:视觉识别实验中使用的超参数。wy4拜客生活常识网

wy4拜客生活常识网

表10:多模态实验中使用的超参数。wy4拜客生活常识网

相关阅读:

  • 3d打印软件有哪些(3d打印模型素材下载)
  • 评价模型有哪些(5种常用的分析方法)
  • 驾模要多久(做牙模型需要多久)
  • 数据挖掘实例及数据分析流程,数据挖掘的概念与过程
  • 人工智能与动物对话
  • 改变世界的发明32丨DNA双螺旋结构分子模型
  • 氧化锌的蚀刻模型
  • 白癜风原创突破背后:一部历时六年的“失败简史”
  • 数字孪生城市,提升城市高效运营管理,推动智慧城市建设
  • 科学家建立仿真模型以研究大质量恒星在塑造周围环境中
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。