随便记下一点点。
- 学科之间的壁垒正在被打破
- AI 最有希望的应用领域是生物、制药、医疗等等
- 要有持续不断的投入和耐心
- 交叉领域既可以是 AI4Sci,也可以是 Sci4AI
在蛋白质领域,其数据结构与自然语言类似,可以直接将自然语言的算法和模型迁移过去。但这样的研究缺少 scientific insight.
蛋白质结构预测问题在忽略生物学背景之后,就是一个一维蛋白质序列到三维空间坐标序列的映射问题。因此其要求的生物学背景知识较少。
蛋白质结构预测包括三种尝试:
- Ab initio prediction: 从头建模。使用一个基本的观察假设,即世界上的所有蛋白质都会固定结合成某一结构。
- Close homology modeling: 同源建模。使用同源序列来预测结构,基于人和其他动植物体内的蛋白具有结构相似性的假设。这个相似性的阈值是 . 已知的蛋白质结构在 PDB 上,大约有 20 万条。
- Distant Homology Modeling: 远同源建模。其假设为:自然进化的过程中,三维结构较一维序列变化更保守。即以为序列更容易突变,但三维结构需要保留。
蛋白质设计是蛋白质结构预测的逆问题,即给定要求的蛋白质结构,要求找到对应的蛋白质序列。
Baker 的博后有小两百人。每个博士和博后都有一个自己的蛋白。每年 Baker 有十几篇 Nature 和 Science, 但是也相应有上百人 “陪葬”。Baker 的老本行是基于第一性原则做 protein design.
AlphaFold2 不是某一算法的成功,是整个系统工程的成功。