# 因果推断

# 贝叶斯公式

$P(A, B) = P(A|B)P(B) = P(B|A)P(A)$ .

但是在使用贝叶斯公式时，我们通常存在一些先验，以确定贝叶斯公式的形式。例如若 A 表示城市的温度，B 表示城市的纬度。那么当改变城市的温度（例如温室效应）后， $P(B|A)$ 不再适用。

样本选择偏差指的是由于用户设备的大小限制，导致搜索引擎只能显示排序靠前的部分文档，因此被截断的文档没有点击。这是一个系统性偏差。使用带有偏差的数据会造成偏差累积，难以纠正。

那么，如何用有偏的数据训练无偏的排序？因果推断是一个重要的纠偏工具。

因果：干预变量 $T$ (tratement) 的变化如何导致另一个结果变量 $Y$ (outcome) 改变（在保持其它变量不变的情况下）。

离线测试中判断因果是容易的。即对同一对象进行是否施加干预的两次实验。但是许多场景要求是在线的，即只能进行一次实验，无法同时实验干预和非干预。此时一般采用随机的方法进行。

如果干预变量不能被控制，只能被观测。观测数据可能存在未知因素的干扰。干扰变量会影响数据的分布。

辛普森悖论：分组可以有效解决该问题。

还需要注意中介变量。