原创美国佛罗里达州立大学小组论文利用深度学习网络预测晶体结构
如何准确预测晶体结构在过去一直是一个巨大的挑战。从早期简单的半径比规则判断二元离子化合物,到更复杂的结构相关图预断二元和三元结构,再到现在的从头算法,研究新型晶体材料的科学家一直迫切希望可以辅助理论指导来促进发现和合成更有可能的化学组分。然而在预测复杂组成的化合物时,理论预测结果并不理想。近日,美国佛罗里达州立大学Shatruk课题组提出利用深度神经网络DNN从大量的晶体数据(51723个晶体结构)中进行机器学习,通过识别学习整个数据集中的原子位点,基本上反映了元素周期表的趋势,且在测试集中具有较高的预测成功率。目前相关研究结果已发表在美国化学会J. Am. Chem. Soc杂志上(J. Am. Chem.Soc. 2018, 140, 10158−10168)。
作者从ICSD (2016)和COD (2016) 两个晶体数据中挑选了高质量的晶体结构组成训练集。该训练集包含了51723个晶体结构,共含704334个独立的晶体学位点。随后他们利用多维视角方法将三维晶体结构转化为二维AFP(atomicfingerprints)特征,可代表晶体独特原子的局部拓扑结构信息;并增加邻近原子的距离信息(Ri0,代表了原子位点真实大小)及最小原子距离与Ri0的比值(代表了原子位点相对大小)两个描述符,告诉模型拓扑结构相关大小的信息。
作者构建的DNN模型主要分为三个部分,包括:变分自编码机VAE,sigmoid分类器和auxiliarysoftmax分类器,三部分各司其职(图-1)。简单来说,作者使用VAE将3072维的标准化AFP指纹进行编码,转换为64维的潜在特征(latentrepresentation),有利于后续的分类器可以更好地学习和定义类别的边界。产生的潜在特征连同标准化的几何描述符作为输入值用于训练sigmoid分类器,并产生118个输出神经元(每个输出神经元对应于周期表中的化学元素)。接着这118个输出神经元连同非标准化的几何描述符(Ri0)作为输入值,用实际距离信息进一步精修由sigmoid分类器输出的元素概率,训练softmax分类器,并同样产生118个输出神经元。最后计算元素在某个晶体结构中的所有原子位点的概率乘积,作为特定组分形成某个晶体结构的可能性。
图-1 DNN模型框架(蓝色框代表输入信息;绿色框代表输出信息;数字代表每层的维度)
首先,作者利用t-SNE sigmoid分类器权重值进行可视化,使得我们可以更直观地看到DNN模型学习到的化学知识。从图-2我们可以清楚地区分镧系元素(紫色区域);也可以看到碱金属和碱土金属,3d金属和Mg元素,4d和5d贵金属的两两聚类等其他与元素周期表规律相似的现象。这说明从晶体数据库中单纯学习几何信息得到的DNN模型显然有能力去发现元素周期表的趋势及化学相似性。
图-2 二维t-SNE对sigmoid分类器权重值的实现可视化结果图。图中的每个点可被视为DNN对化学元素所占据位点拓扑结构的类型的直觉认知。密集点表示了具有相似结构行为的元素。
接下来,作者以51723个已知晶体结构的独立晶体位点作为种子,产生不同化学元素组合的晶体结构,共产生623380个候选的二元晶体结构和2703834个候选的三元晶体结构。然后他们从中挑选了5845个且未出现在训练集中的样本作为测试集并进行了两个测试,分别评估DNN模型预测特定组分所对应的晶体结构以及预测特定结构所对应的组分两个能力。
测试集1包含的是那些化学组分有已知对应的晶体结构的样本。结果显示该DNN模型可以识别27%的已知晶体结构出现在预测排名第一的候选名单中,59%的样本的已知晶体结构位列前十。要注意的是这些预测结果经常包含同构的晶型结构产生的多个候选化合物,而它们与哪些从已知晶体构型产生的候选化合物是难以区分的,并且一起争夺榜首位置。所以上面的测试结果是很可能低估了模型的真实表现。
测试2则评估模型能否预测某个已知晶体结构所对应的组成成分,并为此设计构建了一个optimalityscore的函数来评价。分数越接近1,则表明模型预测已知结构的组分能力越好。由下面的分布图(图-3)我们可以看到optimalityscore主要集中在1附近。这表明模型在预测结构对应的组分中具有很好的表现。
图-3 optimality score在测试集(由290个二元结构和1719个三元结构组成)中的分布图。
最后,作者应用该模型进行了Mn-Ge二元系统的案例研究。在他们的数据集中,Mn-Ge二元系统包括了7个已知的组分,其中的三个组分出现在预测结果排名前20中。随后,他们将Li增加至该系统中,产生66652个独立的LixMnyGez组分。尽管他们整个数据集并未包含关于该组分组合的已知晶体结构,作者发现预测排名第四的Li2MnGe组分在Pearson的晶体数据库中被报道为已知的化合物结构。虽然这只是一个单独的案例,但是作者重申他们的结构预测算法可以一致地识别出那些训练DNN模型时并未出现的那些已知组分。
这项工作证明:DNN模型可以有效地从大量的晶体数据中提取有意义的化学知识,而且具有迅速识别某个选定化学元素组合的化学组分及其可能形成的晶体结构的能力。该研究工作得出的预测模型可以有效地指导新型材料的发现与合成,尤其对于那些包含三种或以上元素的体系。
参考文献:Kevin Ryan, Jeff Lengyel, and MichaelShatruk. Crystal Structure Prediction via Deep Learning. J. Am. Chem. Soc.2018, 140, 10158−10168.
版权声明:以上内容为用户推荐收藏至Dreamgo网站,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知copyright@dreamgo.com进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系info@dreamgo.com