
实验设置
论文在英国生物银行(UK Biobank)和人类连接组计划(Human Connectome Project)数据集上进行了测评。所有数据的使用均已经过了相关研究部门批准。其中 UK Biobank 包含36,848名参与者的结构MRI以及静息fMRI脑成像数据,以及被筛选出的67个非脑成像的表征特性。而HCP包含 1,019 名参与者的结构MRI以及静息fMRI数据,以及被筛选出的58个表征特性。所筛选的表征特性涵盖了意识(cognition)、情绪(emotion)以及个人特质(personality)。
UK Biobank数据集被用作训练集,用于使用元匹配来训练预测模型。其被随机分为元训练集(26,848名参与者,33个表征特性)以及元测试集(10,000名参与者,34个表征特性)。而HCP数据集则被用作测试集、测试预测模型在新的表征特性上的预测准确率。其被随机分为K个参与者用于训练以及(1,019-K)个参与者用来测试。其中K取值为19,20,50,100和200.

图. HCP表据集表形特性示例
实验结论
上述方法已经在英国生物银行(UK Biobank)的 36,848 名参与者和来自人类连接组计划(Human Connectome Project)的 1,019 名参与者的样本评估中显示出有效性。
在BioBank测试集上性能超过经典的核岭回归(KRR)
下图展示了在UK Biobank元测试集 基于Pearson’s相关系数的准确性比较。在所有的样本数量设置上(K值),所提出的元匹配方法在34个表征特性准确率大幅超过经典的KRR方法 (伪发现率FDR q<0.05). 例如在fMRI研究中常见的样本数量K=20 (20-shot),基本的DNN meta-matching 方法准确率超过KRR 100% (0.124 vs. 0.052). 而如果采用coefficient of determinant (COD)作为性能指标,DNN meta-matching方法则超过KRR 400% .

在HCP小规模新数据集上显著超过KRR
为了测试元匹配在全新的测试集上的表现,论文进一步测试了其在HCP数据集上的性能。发现同样的,所提出的元匹配方法准确率大幅超过经典的KRR方法。例如在K=20时,元匹配方法准确率超过KRR 100% (0.123 vs. 0.047). 而在K=100时,以COD为指标,元匹配方法准确率超过KRR 800%.

讨论与总结
考虑到所提出的元匹配方法是利用表征特性之间的相关性来辅助预测,其背后的预测机制有可能是非因果的。然后该研究的主要目标是提高预测准确率,并且即使是非因果预测,所得到的预测模型也有很多的应用场景。例如,抗抑郁药物至少要4周以上才会起效,而少于50%的病人会对第一次给药反应良好。因此,即使是非因果的预测,提高表征特性的预测能力在临床上仍具有巨大价值。
论文所提出的元匹配方法,是基于机器学习领域中的元学习,多任务学习以及迁移学习等。例如在DNN模型上先训练再微调可认为是迁移学习的一种形式。但是,值得注意的是,实验表明最大的准确率提升是来自于论文提出的核心算法—元匹配。当然,更先进的机器学习算法有希望在这个方向上带来更大的预测准确率的提升。
虽然最初的脑成像数据集来自于年轻健康的成年人,现在有越来越多的数据集侧重不同的人群,例如老年人、儿童、不同的疾病等。论文提出的方法在将来也可以用于其他人群数据集的表征特性预测,例如最近的ABCD数据集包含了精神健康症状。