# 因果推断

# 贝叶斯公式

P(A,B)=P(AB)P(B)=P(BA)P(A)P(A, B) = P(A|B)P(B) = P(B|A)P(A).

但是在使用贝叶斯公式时,我们通常存在一些先验,以确定贝叶斯公式的形式。例如若 A 表示城市的温度,B 表示城市的纬度。那么当改变城市的温度(例如温室效应)后,P(BA)P(B|A) 不再适用。

# 样本选择偏差

样本选择偏差指的是由于用户设备的大小限制,导致搜索引擎只能显示排序靠前的部分文档,因此被截断的文档没有点击。这是一个系统性偏差。使用带有偏差的数据会造成偏差累积,难以纠正。

那么,如何用有偏的数据训练无偏的排序?因果推断是一个重要的纠偏工具。

因果:干预变量 TT (tratement) 的变化如何导致另一个结果变量 YY (outcome) 改变(在保持其它变量不变的情况下)。

# 在线测试

离线测试中判断因果是容易的。即对同一对象进行是否施加干预的两次实验。但是许多场景要求是在线的,即只能进行一次实验,无法同时实验干预和非干预。此时一般采用随机的方法进行。

# 从非实验中发掘因果

如果干预变量不能被控制,只能被观测。观测数据可能存在未知因素的干扰。干扰变量会影响数据的分布。

# 分组

辛普森悖论:分组可以有效解决该问题。

还需要注意中介变量。

#