# 因果推断
# 贝叶斯公式
.
但是在使用贝叶斯公式时,我们通常存在一些先验,以确定贝叶斯公式的形式。例如若 A 表示城市的温度,B 表示城市的纬度。那么当改变城市的温度(例如温室效应)后, 不再适用。
# 样本选择偏差
样本选择偏差指的是由于用户设备的大小限制,导致搜索引擎只能显示排序靠前的部分文档,因此被截断的文档没有点击。这是一个系统性偏差。使用带有偏差的数据会造成偏差累积,难以纠正。
那么,如何用有偏的数据训练无偏的排序?因果推断是一个重要的纠偏工具。
因果:干预变量 (tratement) 的变化如何导致另一个结果变量 (outcome) 改变(在保持其它变量不变的情况下)。
# 在线测试
离线测试中判断因果是容易的。即对同一对象进行是否施加干预的两次实验。但是许多场景要求是在线的,即只能进行一次实验,无法同时实验干预和非干预。此时一般采用随机的方法进行。
# 从非实验中发掘因果
如果干预变量不能被控制,只能被观测。观测数据可能存在未知因素的干扰。干扰变量会影响数据的分布。
# 分组
辛普森悖论:分组可以有效解决该问题。
还需要注意中介变量。