岑剡、张浩团队提出基于Transformer架构的通用原子嵌入方法

发布时间： 2025-02-09 文章作者：访问次数： 10

近期，复旦大学物理学系岑剡、信息科学与工程学院张浩团队提出了通用原子嵌入方法（ct-UAE），该方法基于自主研发的 CrystalTransformer模型，在晶体材料物性预测领域取得了显著进展。研究成果不仅有效提高了形成能、带隙和力等重要物理属性的预测精度，并且通过在大规模数据库上进行多任务学习，ct-UAE展现了强大的知识迁移能力，能够保持在数据稀缺任务中的良好泛化性能，解决了传统方法在小数据集上的应用瓶颈。相关工作以“Transformer-generated atomic embeddings to enhance prediction accuracy of crystal properties with machine learning”为题发表于Nature Communications,16, 1210 (2025)。我系21级本科生杜子健和信息学院22级本科生金罗智杰与是论文共同第一作者，复旦大学梅永丰教授与山东建筑大学许园风副教授为这项工作做出了重要贡献。工作得到了国家重点研发计划项目、上海市自然科学基金项目与复旦大学本科生学术研究资助计划（FDUROP）支持。

在材料科学领域，机器学习对材料属性预测至关重要。传统预测方法因依赖人工特征和简单模型，在复杂材料系统面前常遇数据稀缺、精度有限难题。尽管深度学习中的图神经网络（GNN）应用有进展，但表征原子间复杂相互作用以提升预测精度仍是挑战。原子嵌入方法作为深度学习模型关键步骤，连接化学信息与物性特征，但现有方法多依赖预定义特征或人工嵌入，难适配不同体系和任务。新型基于深度学习的嵌入方法可自动学习原子及其相互作用高维特征，提升预测精度和泛化能力。Transformer架构模型在自然语言处理领域革命性进展后，被引入材料科学，结合原子信息嵌入和 GNN 学习取得突破。然而，现有方法在数据稀缺任务下仍有挑战，如何在大规模数据库上有效训练并确保数据不足时仍保持良好预测精度，是材料科学中亟待解决的重要问题。

为了应对这些挑战，我们提出了一种基于自主研发的 CrystalTransformer模型的通用原子嵌入方法（ct-UAE），该方法通过自动学习原子嵌入，不依赖预定义的原子特性，能够适应多种材料属性预测任务。

图1：通用原子嵌入方法工作流程以及不同的原子嵌入方法。(a) 通用原子嵌入方法工作流程。利用前端模型得到原子嵌入后，再针对不同训练目标训练后端模型。(b) 方法（I、II）使用深度学习在大型数据库上进行训练并生成原子嵌入。方法 I 使用Crystaltransformer 生成通用原子嵌入（UAE），而方法 II 使用传统的 GNN 模型生成普通原子嵌入。(c) 方法 III使用查询数据库或在大多数情况下将已知原子属性映射到0–1 向量或 one-hot 向量来人工构建原子嵌入。

研究方法

CrystalTransformer 模型

CrystalTransformer 模型通过 Transformer 架构学习原子嵌入，不依赖预定义的原子特性。模型首先对原子和坐标信息进行线性变换，然后通过多头自注意力机制提取晶体结构特征。最终，模型通过线性层输出预测的材料属性。该模型的架构如图 2所示。

图2. CrystalTransformer模型的结构。(a) CrystalTransformer 模型的主体部分。输入A和输入X分别表示原子（化学）信息和结构（坐标）信息。经过信息提取层后，输入被转换成A矩阵和X矩阵。这两个矩阵随后被拼接，并通过包含多头自注意力、前馈层等组件的 Transformer 层进行处理，以生成输出目标。(b)化学信息提取层。输入A首先通过一个嵌入层，然后进行线性变换。(c)坐标信息提取层。输入X经过数据增强后进行线性变换。

多任务学习

为了提升模型的泛化能力，我们采用了多任务学习方法。模型在多个属性上同时训练，损失函数为各任务损失的加权和。通过多任务学习，模型能够学习到更通用的原子嵌入，从而在不同任务中表现更好。

实验结果

性能评估

我们在多个数据集（MP、MP*、JARVIS和 MC3D）上评估了不同前端-后端模型组合的性能。表1结果表明，使用 CrystalTransformer作为前端模型的预测精度最高，误差最低。例如，在MP数据集上，CT-CGCNN 模型的形成能预测 MAE为 0.073 eV/atom，比 None-CGCNN 模型的 0.083 eV/atom降低了 14%。

表1.不同模型在不同数据集上的性能(MAE)比较

迁移学习

我们将 ct-UAE 应用于数据稀缺的钙钛矿材料属性预测任务。结果表明，使用多任务学习的ct-UAE 在钙钛矿材料的形成能预测中表现出最高的预测精度。例如，在MEGNET 模型上，预测的 MAE从 0.032 eV/atom降低到 0.021 eV/atom，预测精度提升了 34%。

可解释性

为了验证ct-UAE的物理可解释性，我们使用 UMAP 算法和K-means 算法对原子嵌入进行降维和聚类。聚类结果如图 3 所示，表现出物理上的可解释性。不同类别的元素在形成能、带隙和总磁化强度上的分布规律显著不同，表明 ct-UAE能够有效反映原子的化学本质。

图3. CrystalTransformer生成的通用原子嵌入（ct-UAE）的可解释性，包括聚类元素和对聚类结果进行统计验证。(a)UMAP（Uniform Manifold Approximation and Projection）将ct-UAE映射到两个维度，分别标记为成分1和成分2，而K-means方法将它们聚类为三类，用三种颜色表示。阴影背景反映了该区域中元素的数量。阴影越深，表示该聚类区域中的元素数量越多。b，c肘部图和轮廓系数图用于确定最佳聚类数。（b）中的虚线位于3，表示轮廓系数处于相对较高水平。（c）中的虚线也位于3，表明当聚类数为3时，平方和误差（SSE）曲线的斜率相对较陡。使用五个随机种子以获得平均结果。(d–f)使用UMAP和MT@4p嵌入将材料项目数据集中的氧化物化合物和氧同素异形体分类为A、B和C类的形成能、带隙和总磁化强度的小提琴图。

结论

本研究提出的 ct-UAE 方法通过训练自主研发的 CrystalTransformer 模型，提取出具有高精度、优良可迁移性和物理可解释性的通用原子嵌入，显著提升了晶体材料属性预测的准确性。通过多任务学习，ct-UAE在大规模数据库上训练获得的知识能够有效迁移至数据稀缺任务，展现出良好的泛化能力和跨任务转移性能。该方法在形成能、带隙和力等多个材料属性预测中均取得了显著提升，且在实际应用中具有较强的扩展性和适用性。本项工作为提升模型在数据稀缺任务中的泛化性能提供了创新的思考角度，具有广泛的应用前景。

文章链接：https://www.nature.com/articles/s41467-025-56481-x