前 MSR 首席研究员刘海广的讲座。

# 背景

评价药物的效果:是否能调控细胞的状态。因此需要对细胞进行建模。

# Cell States

细胞是如何进行描述的?传统方法包括:

  • 外观
  • 位置
  • 功能

在后基因组时代 (post-genomics era), 可以使用分子级别的视角观察,描述包括:

  • 组学 (omics)
  • 成像 (imaging)
  • 功能 (function)
  • 时空的方法 (spatio-temporal techniques)

目前来看,包括四个维度的描述(但是互相之间不是独立的):

  1. 环境 environment
  2. 细胞组织 cell orgainzation
  3. 细胞功能 cell function
  4. 分子状态 molecular census

其中一者发生变化,也会造成其余的维度变化。

细胞在受到微扰后会回到原有状态,或者会进入新的稳态。(负反馈调节系统)那么细胞可以定义一个类似的 “势函数” 吗?

细胞可以映射在流形上。

# Molecules v.s. Cells

蛋白质的表示方式:

  • 序列 sequence
  • 结构 structure
  • 动态变化 dynamics
  • 交互 interactions

细胞的表示方式(类比):

  • 组成 composition
  • 连通性 connectivity
  • 状态转换 state transition
  • 细胞通信 cellular communication

于是一个细胞的描述包括是 C({m,n,r,i})C(\{m, n, r, i\}).

  • mm: 组学信息,包括哪些
  • nn: 数量,每种包括多少
  • rr: 空间信息
  • ii: 网络知识

# 细胞的统一表示

做 AI virtual cell 时需要忽略一些细节。比如做蛋白质结构时候,最早会关注具体的 folding 方式,但是最后仅仅关注最终的预测结构。

# 数据

目前细胞的数据描述已经超过了训练 LLM 的语料数量,但是重复率略高。

目前有两个数据集,分别是 Tahoe-100M 和 scBaseCount.