大部分《概率论与数理统计》的第一章都会介绍一个有全概率公式与条件概率定义推广而来的贝叶斯公式,也是本文的主角:$$ P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\sum ^{n}_{j=1}P(A_j)P(B|A_j)} $$
通常的教材会以细菌检查中的阳性阴性概率问题作为例题引入贝叶斯公式的应用,但贝叶斯学派与概率学派的具体区别很少有老师能够提及,只知道“原来测试结果为阳性不能代表染病”的具象结论。
事实上,要理解贝叶斯公式首先需要了解什么是“先验概率”和“后验概率”:
- 所谓先验,即为事件还未发生前,我们通过以往经验(如N次试验)或者分析得到的概率,也往往是做题时会直接给出的;
- 所谓后验,即为事情已经发生后,这个事件是由某个因素引起的可能性大小。
概率学派认为,某个事件的发生概率是固定的;贝叶斯学派则认为概率时表示事件发生的不确定大小。两者听起来差不多,这里以在10次掷硬币实验中,10次均正面向上为例:
- 概率学派会极端地认为从这十次试验来看,掷硬币正面向上的概率的确是1,教科书上形象地称其为“由原因推测结果”;
- 而贝叶斯学派则会引入后验概率思想,即“由结果推测原因”,认为这枚用于试验的硬币可能只有正面。
为什么贝叶斯公式如此重要,使得由其发展出的数学理论都能形成一个学派了呢?
主要原因在于,我们人类面对的总是未知的世界,我们永远不能了解所有的“原因”,从而得到准确的结果,但在试验中我们总能得到已知的“结果”去推测所谓的“原因”。以机器学习为例,如果我们已经知道机器学习算法将要面临的所有情况,我们为什么还要“机器学习”呢?为何不直接记下所有可能的情况随用随取呢?不准确地说来(可能是错误的,但能帮助理解),机器学习的过程就是不断从结果事件中总结经验,不断逼近真实“概率”的过程。
贝叶斯估计在中文分词方面发挥了重要作用:
对于西方拼音语言来讲,词之间有明确的分界符(Delimit),统计和使用语言模型十分直接。——《数学之美》
分词问题中二义性问题是曾经困扰众多科学家的难题之一,当然其中有些是人们故意构造的“两难”句子,如“此地安能居住,其人好不悲伤”这类分词将会导致两种截然不同之意的情况。早期的分词模型认为,判断一个句子是否合理,只需要判断这个句子的可能性大小,即概率大小。由此就有这样的结论,对句子S,有可能的分词方式$ w_1,w_2,\cdots $,有$ P(S) = P(w_1,w_2,\cdots) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) \cdots $,显然随着n的增加后面的概率变得越来越不好计算,后来著名的马尔科夫给出了一个偷懒的办法(马尔科夫假设):$ P(S) = P(w_1,w_2,\cdots) = P(w_1)P(w_2|w_1)P(w_3|w_2) \cdots $(这个模型又被称为二元模型,因等式右边的概率只与一个词前面的另一个词决定)。
现在我们来看上面的方法如何解决这样一个二义性问题:
- 南京市/长江大桥
- 南京/市长/江大桥
由于“市长”与“江大桥”两词在语料库中根本不会一起出现,所以P(2)=0,故上面的方法成功解决了这个二义性问题。
有关贝叶斯公式当然还有很多有趣的实例,有机会我将继续补充内容。