标签关系树
标签关系树

由节点集合

、有向边集合

、以及无向边集合

组成。每个节点

对应到层级中的一个类别标签,图中的节点个数 n 等于层级中所有标签的个数。一条有向边

代表节点

间具有父子关系,及类别 i 是类别 j 的父类。一条无向边

代表节点

与

为互斥关系。层级中每个类别标签取值为二元值,即

,代表目标是否具有这个类别标签。图中每条边限制了相连节点的取值:对于具有父子关系边相连的两个节点

的赋值是违法的(是拉布拉多却不是狗);对于具有互斥关系边相连的两个节点

的赋值是违法的(既是柯基又是拉布拉多)。图中所有边约束了层级多标签中相邻类别节点的合法取值,对于层级中所有标签的一个全局合法赋值为一个二元标签向量

。所有全局合法赋值向量的集合构成标签关系树 G 拥有的合法赋值空间

。
层级残差网络

图 3: 层级残差网络结构图
基于残差跨层级连接的层级残差网络 (HRN) 由一个主干特征提取网络、层级特征 交互模块、以及两个并行的输出通道构成,如图 3 所示。任何常用的网络都可以作为主干网络用来提取输入图像的特征,我们选用广泛使用的深度残差网络 ResNet-50 作为 HRN 网络的主干网络。层级特征交互模块包括每个层级专有的特征提取层与残差连接部分。层级专有特征提取层网络结构一致,都包含两层卷积层后接两层全连接层 (FC)。层级专有特征提取层根据主干网络产生的共享输入特征提取每个层级专有的特征。残差连接部分首先线性组合来自粗粒度父类层级的特征与细粒度子类层级的特征,反映子类不仅具有属于自己的独特属性还继承了来自父类的属性。父类层级专有特征提取层可以视为残差连接将属于自己层级的特征逐层向下结合到子类层级的特征中。