在最近几天的调研中,我大致梳理清楚了人工智能在材料科学的应用一些主要内容,包括如下几部分。

# 材料的表示

晶体材料的表示是目前还有极大的探索空间。这里的第一个主要发展点是,相比于分子的 SMILES 表示,晶体缺少一种纯文本的、高信息密度的、具有恢复结构可能的字符串表示。

目前,晶体的表示主要包括两种。

第一是基于 cif 文件的表示,也就是使用一个文件列举晶体的空间群、晶格结构、原子的类型和分数坐标等具体信息。这种表示方式是信息最全面的,但是文件结构较松散,直接使用 LLM 进行解释比较困难。与该表示类似的还有 DiffCSP 等方法中使用的基于分数坐标的表示。此外,cif 表示与 VASP 的 POSCAR 表示也可以直接转换,两者几乎可以归为一类。

第二种是 CGCNN 等文章中使用的,基于多重图结构的表示。该表示将每个原子表示为图中的一个节点,将晶格中的相邻关系建模为图中的边,可以有效表示晶体的周期性关系,也可以加入三维坐标转换为几何图的表示。但是,该表示很难直接被大语言模型所理解,只能被图模型所利用。

反观 SMILES 表示,其优点如下:

  1. 使用字符串进行表示,信息紧凑,方便 LLM 处理;
  2. 可以使用特殊符号表示分子中的化学键类型,手性、特殊官能团等信息,蕴含了决定分子性质的众多信息。
  3. 虽然没有分子的构象信息,但是可以利用键长表等少量的外部知识,快速实现分子构象的近似恢复。

因此,我们也需要一种晶体字符串表示,这种表示可以建模晶体中的无机骨架,同时蕴含晶体中原子的主要配位信息。

# 晶体结构预测

晶体结构预测 (Crystal Structure Prediction, CSP) 问题是晶体研究中的一个核心问题,其任务是从化学组成预测晶体结构。

# 材料的性质预测

# 材料的生成