和物理开了一场会,简单记了一下一些和具体文章不相关的想法。

# 数据量少的办法

要想把科学基座模型应用到下游,比如生成新的材料,或是预测材料的信息,则必然会面临数据量小的问题。目前来看有三种解决办法:

  1. 将已有的小规模数据集划分,大部分用于微调,小部分用于验证;
  2. 将已有的小规模数据集全部用于微调,然后从最新的文献中找数据用于验证;
  3. 将已有的小规模数据集全部用于微调,然后将预测的性质或生成的物质使用实验的方式进行测量。

这三种办法从前到后成本依次增大,但说服力也逐渐变强。