谢天的讲座。

# 总结

并没有讲什么实在的东西,主要是讲 MatterSim 作为预测器,和 MatterGen 作为生成器,所形成的材料发现框架。收获最大的是其最后提到的材料领域的三大挑战:

  1. Grain boundaries. 晶界、多尺度模拟困难。
  2. Interfaces. 原理过于复杂,混合物难以表示。
  3. Lab automation. 缺乏负样本导致不得不进行自动化实验,但是现在自动化实验室不比人工实验室效率更高。而且很大的挑战都来自于具身智能的部分。

# QA

上午的讲座和下午的座谈讨论了几个问题,现在按照印象简单记录一下:

Q1: 哪些材料体系是有前景的?为什么选择无机晶体作为博士期间的探索方向?

A1: 无机晶体的数据集最丰富,Materials Project 中有很多有价值的数据。(但是并没有说现在的哪些体系最有前景。)

Q2: 那么,MP 数据还存在进一步发掘的潜力吗?数据对模型能力的提升大不大?

A2: MP 数据目前利用差不多了。可以看到,目前 Matbench Discovery 上面的模型性能大幅度提升,大部分都是因为使用了更多的数据。在相同的数据集下,使用不同的模型架构,带来的收益没有那么大。

Q3 (陆子恒提问): 现在,不同的基座模型或许在刷榜上具有比较显著的差距,但是在后续的落地过程中,这样的差距似乎起不到决定性的作用。比如 MatterSim 当时相较于其它模型优秀许多,现在又被许多模型超越。但是下游任务似乎没人特别关注使用的模型。是这样的吗?

A3: 对于相同的模型,不同的人不同的使用方式会带来显著的结果差异。(所以还是要看现有的基座模型怎么用,基座模型的能力已经差不多了。)

Q4: 在材料的设计中,该如何对材料的工艺进行编码?对于晶体,大部分结构都是 “合法” 的,但是由于存在竞争相等原因,不一定能做到合成成功。

A4: 使用带有工艺的数据集设计模型。需要使用 MD 来建模完整的过程信息,来对工艺进行有效编码。

Q5: 你相信 AI 模型在材料上的外推能力吗?现在的模型是不是都是在已有的材料性质上做插值?比如掺杂可以显著改变材料的性质,如何使用模型预测?

A5: 材料的外推需要建立在第一性原理的基础上,而不是经验公式的基础上。比如 MatterSim 对高温、高压的数据做了 DFT 计算,才保证 MatterSim 在极端情况下的预测是准确的。(这不是还是转化为了内插的问题吗?)

Q6 (刘铁岩 Comments):材料和生物的问题并不是完全一致的。在生物学中,预测的分子是可以被准确合成出来的,其瓶颈在于作为药物验证的周期长。但是材料本身的问题是生产制造。预测或生成的材料不一定能在现实中被完美制造出来,存在 sim2real 的 gap.

Q6: 如何弥补生成的材料到实际制造之间的 gap?

A6:进行多尺度的模拟,多做实验观察。在很多问题上,比如超导,做实验甚至比进行计算模拟的成本还要低,因此还是要多做实验。(记不太清了,但是也没有提很有趣的想法,总之是要和实验有效结合起来。)

Q7: 现在有没有将不同尺度的信息或模型进行联合的方法?

A7: 很难。

Q8:现在的 AI 都非常关注通用性。但是越通用的表示就需要越高的兼容成本。那么,什么情况下兼容的成本会超过收益?模型的通用化发展会在什么情况下结束?

A8:数据最重要,如果有足够多的数据,就可以做通用的模型。(也没回答到点上。)

Q9: 对于固态电解质的离子导这种基于动态的性质,使用 MatterGen 做条件生成仍然可以吗?

A9:道理是一样的,先用 MatterSim 等模型做 MD 给数据打标签,然后利用标签训练生成模型。(看来对动态 / 静态性质并不关心。)