随便记下一点点。

  • 学科之间的壁垒正在被打破
  • AI 最有希望的应用领域是生物、制药、医疗等等
  • 要有持续不断的投入和耐心
  • 交叉领域既可以是 AI4Sci,也可以是 Sci4AI

在蛋白质领域,其数据结构与自然语言类似,可以直接将自然语言的算法和模型迁移过去。但这样的研究缺少 scientific insight.

蛋白质结构预测问题在忽略生物学背景之后,就是一个一维蛋白质序列到三维空间坐标序列的映射问题。因此其要求的生物学背景知识较少。

蛋白质结构预测包括三种尝试:

  • Ab initio prediction: 从头建模。使用一个基本的观察假设,即世界上的所有蛋白质都会固定结合成某一结构。
  • Close homology modeling: 同源建模。使用同源序列来预测结构,基于人和其他动植物体内的蛋白具有结构相似性的假设。这个相似性的阈值是 30%30\%. 已知的蛋白质结构在 PDB 上,大约有 20 万条。
  • Distant Homology Modeling: 远同源建模。其假设为:自然进化的过程中,三维结构较一维序列变化更保守。即以为序列更容易突变,但三维结构需要保留。

蛋白质设计是蛋白质结构预测的逆问题,即给定要求的蛋白质结构,要求找到对应的蛋白质序列。

Baker 的博后有小两百人。每个博士和博后都有一个自己的蛋白。每年 Baker 有十几篇 Nature 和 Science, 但是也相应有上百人 “陪葬”。Baker 的老本行是基于第一性原则做 protein design.

AlphaFold2 不是某一算法的成功,是整个系统工程的成功。