美国能源部(DOE)阿贡国家实验室与几所大学合作,设计了一种方法,用于从 X 射线分析中创建大量数据的彩色编码图。这个新工具使用计算数据排序来查找与物理特性相关的簇,例如晶体结构中的原子畸变,将加快未来对温度变化引起的原子尺度结构变化的研究。
利用大量X射线数据的机器学习方法将加快材料的发现。彩色编码使航空地图更容易理解,通过颜色,我们可以一眼看出哪里有道路、森林、沙漠、城市、河流或湖泊。
图1:机器学习根据每个区域的温度依赖性提供X射线数据的彩色编码图。
X-TEC确定了数据中两组尖峰(黄色和绿色方块)的位置,以及它们周围的漫散射晕(红色和蓝色)。
阿贡材料科学部门的高级物理学家雷蒙德·奥斯本说:“使用机器学习来快速分析来自X射线衍射的大量数据,过去可能需要花几个月的时间,现在大约只要15分钟,同时结果更加精细。”
由于机器学习,我们能够看到传统X射线衍射(XRD)无法看到的材料行为。
一个多世纪以来,X射线衍射一直是分析材料的所有科学方法中最富有成果的方法之一。它提供了无数具有重要技术意义的材料的三维原子结构的关键信息。
近几十年来,在大型设施中,如阿贡的美国能源部科学办公室用户设施先进光子源(APS),XRD实验产生的数据量大幅增加。然而,非常缺乏能够处理这些庞大数据集的分析方法。
该团队将他们的新方法称为“X射线温度聚类”,简称XTEC。它通过对大型X射线数据集进行快速聚类和颜色编码,以揭示随着温度升高或降低而发生的先前隐藏的结构变化,从而加速材料发现。
一个典型的大数据集是10000 GB,相当于约300万音乐歌曲。
XTEC利用了无监督机器学习的力量,使用了康奈尔大学为该项目开发的方法。这种机器学习不依赖于初始训练和学习,同时数据已经得到了很好的研究。
相反,在无需训练时通过在大型数据集中寻找模式和聚类进行学习,然后用颜色编码来表示这些图案。
奥斯本说:“例如XTEC可能会将红色分配给数据集群一,该集群一与特定属性相关,该属性以特定方式随温度变化。簇二将是蓝色的,并与另一个具有不同温度依赖性的属性相关联,依此类推。颜色表明每个簇是否代表航空地图中的道路、森林或湖泊。”