近期,新加坡国立大学、字节跳动智能创作新加坡团队等机构合作的一项技术成果被全球顶级学术期刊Nature的子刊Nature Neuroscience收录。这项研究首次将人工智能领域的元学习方法引入到神经科学及医疗领域,能在有限的医疗数据上训练可靠的AI模型,提升基于脑成像的精准医疗效果。
研究背景
脑成像技术是神经科学发展的一个重要领域,能够直接观察大脑在信息处理和应对刺激时的神经化学变化、从而对疾病的诊断和治疗提供重要参照。理论上,基于脑成像的机器学习模型可应用于预测个人(inpidual)的一些非脑成像(non-brain-imaging)的表征特性(phenotypes) ,例如,流动智力 (fluid intelligence)、临床结果(clinical outcomes)等,从而促进针对个人的精准医疗( precision medicine)。
一个现实的问题在于,虽然现在已经有英国生物银行(UK Biobank)这样的大规模人类神经科学数据集,在研究临床人群或解决重点神经科学的问题时,几十到上百人的小规模数据样本依旧是常态。在精确标注的医疗数据量有限的情况下,很难训练出一个可靠的机器学习模型来预测个人表征特性。
论文提出一个新的思路来解决这一数据匮乏所带来的根本限制:在给定一个大规模(N>10,000)的带有多种表征特性标注的脑成像数据集,可以将在该数据集上训练的机器学习模型迁移到一个独立的小规模(N<200)的带有新的表征特性的数据集上,从而使得在新的数据集上训练的模型能够准确预测新的表征特性。
方法
研究者通过对先前的小样本数据分析发现,个体的认知、心理健康、人口统计学和其他健康属性等表征特性与大脑成像数据之间存在一种内在的相关性。这意味着,小数据集当中的某些独特表型可能与大规模数据集当中的某些预先存在的特定表型相关,利用这种相关性,研究者提出了一个新的基于元学习的元匹配方法建立了一种框架机制,可利用大规模脑成像数据集来促进对小数据集当中一些全新的、未知的表型的预测,从而训练出可靠的用于表征特性预测的机器学习模型。
论文提出了一种新的元匹配(meta-matching)方法,来解决小规模数据集上的表征特性预测模型的训练问题。元匹配是一种高度灵活的学习框架,可以用于各种不同的机器学习方法。论文主要研究了将元匹配方法应用于核岭回归(kernel ridge regression, KRR)以及全连接的深度神经网络(DNN).
在元匹配的学习框架中,大规模的训练数据被分为元训练集 (training meta-set) 以及元测试集 (testing meta-set)。这两个数据集包含不同的个体和表征特性标注。元训练集被用来训练DNN预测模型,而元测试集则用来评估当前DNN模型在新的表征特性上的预测准确率(也即泛化性能)。特别的,随机挑选的K个(K<5)个体数据被选作测试样本。而在元测试集上表现最好的一个DNN输出节点(output node)将被保留,而其他节点被移除。之后在该K个测试个体数据,微调(fine-tune)该保留的节点以及DNN模型之前与该节点相连的隐藏层参数。注意与一般的元学习或者微调策略不同的是,这里只微调DNN模型中的一个子网络,而不是微调整个模型参数。该过程将被重复M次,直到DNN模型在元测试集上预测稳定为止。
在完成上述的元训练过程以后,得到的DNN模型已具有了较强的在新的预测任务上的泛化能力。该模型可以直接迁移到新的表征特性数据集上,用少量的标注样本进行训练,即可有较好的预测性能。