前 MSR 首席研究员刘海广的讲座。
# 背景
评价药物的效果:是否能调控细胞的状态。因此需要对细胞进行建模。
# Cell States
细胞是如何进行描述的?传统方法包括:
- 外观
- 位置
- 功能
在后基因组时代 (post-genomics era), 可以使用分子级别的视角观察,描述包括:
- 组学 (omics)
- 成像 (imaging)
- 功能 (function)
- 时空的方法 (spatio-temporal techniques)
目前来看,包括四个维度的描述(但是互相之间不是独立的):
- 环境 environment
- 细胞组织 cell orgainzation
- 细胞功能 cell function
- 分子状态 molecular census
其中一者发生变化,也会造成其余的维度变化。
细胞在受到微扰后会回到原有状态,或者会进入新的稳态。(负反馈调节系统)那么细胞可以定义一个类似的 “势函数” 吗?
细胞可以映射在流形上。
# Molecules v.s. Cells
蛋白质的表示方式:
- 序列 sequence
- 结构 structure
- 动态变化 dynamics
- 交互 interactions
细胞的表示方式(类比):
- 组成 composition
- 连通性 connectivity
- 状态转换 state transition
- 细胞通信 cellular communication
于是一个细胞的描述包括是 .
- : 组学信息,包括哪些
- : 数量,每种包括多少
- : 空间信息
- : 网络知识
# 细胞的统一表示
做 AI virtual cell 时需要忽略一些细节。比如做蛋白质结构时候,最早会关注具体的 folding 方式,但是最后仅仅关注最终的预测结构。
# 数据
目前细胞的数据描述已经超过了训练 LLM 的语料数量,但是重复率略高。
目前有两个数据集,分别是 Tahoe-100M 和 scBaseCount.