在“人工智能基础课”中我曾提到,“概率”(probability)这个基本概念存在着两种解读方式,它们分别对应着概率的频率学派(Frequentist)和贝叶斯学派(Bayesian)。而解读方式上的差异也延伸到了以概率为基础的其他学科,尤其是机器学习之中。

根据机器学习领域的元老汤姆·米切尔(Tom M. Mitchell)的定义,机器学习(machine learning)是一门研究通过计算的手段利用经验来改善系统自身性能的学科。

现如今,几乎所有的经验都以数据的形式出现,因而机器学习的任务也就变成了基于已知数据构造概率模型,反过来再运用概率模型对未知数据进行预测与分析。如此一来,关于概率的不同认识无疑会影响到对模型的构建与解释。

可在概率的应用上,频率学派和贝叶斯学派的思路呈现出天壤之别,这种思维上的差异也让两派的拥护者势同水火,都视另一方为异端邪说。正因如此,在这个专栏的前两篇文章中,我将首先和你理清频率学派与贝叶斯学派对概率的不同观点,为接下来从不同的角度理解机器学习的各种算法打下扎实的基础。

下面这个流传已久的笑话,不经意间对频率学派和贝叶斯学派的区别给出了形象的解释:有个病人找医生看病,医生检查之后对他说:“你这病说得上是九死一生,但多亏到我这里来看了。不瞒你说,在你之前我已经看了九个得一同样病的患者,结果他们都死了,那你这第十个就一定能看得好啦,妥妥的!”

如果病人脑子没事,肯定就从这个糊涂医生那里跑了。显然,医生在看待概率时秉持的是频率主义的观点,但却是个蹩脚的频率主义者。之所以说他是频率主义者,是因为他对九死一生的理解就是十次手术九次失败一次成功;说他蹩脚则是因为他不懂频率学派的基础,区区九个病人就让他自以为掌握了生死的密码。

归根到底,频率学派口中的概率表示的是事件发生频率的极限值,它只有在无限次的独立重复试验之下才有绝对的精确意义。在上面的例子中,如果非要从频率的角度解释“九死一生”的话,这个 10% 的概率只有在样本容量为无穷大时才有意义。因此即使“九死一生”的概率的确存在,它也不能确保第十个病人的康复。

在频率学派眼中,当重复试验的次数趋近于无穷大时,事件发生的频率会收敛到真实的概率之上。这种观点背后暗含了一个前提,那就是概率是一个确定的值,并不会受单次观察结果的影响。

将一枚均匀的硬币抛掷 10 次,结果可能是 10 次都是正面,也可能 10 次都是反面,写成频率的话就对应着 0% 和 100% 这两个极端,代表着最大范围的波动。可如果将抛掷次数增加到 100 次,出现正面的次数依然会发生变化,但波动的范围更可能会收缩到 40% 到 60% 之间。再将抛掷次数增加到 1000,10000 的话,频率波动的现象不会消失,但波动的范围会进一步收缩到越来越小的区间之内。

基于以上的逻辑,把根据频率计算概率的过程反转过来,就是频率统计估计参数的过程。频率统计理论的核心在于认定待估计的参数是固定不变的常量,讨论参数的概率分布是没有意义的;而用来估计参数的数据是随机的变量,每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的,那频率的波动就并非来源于参数本身的不确定性,而是由有限次观察造成的干扰而导致

这可以从两个角度来解释:一方面,根据这些不精确的数据就可以对未知参数的精确取值做出有效的推断;另一方面,数据中包含的只是关于参数不完全的信息,所以从样本估计整体就必然会产生误差。

统计学的核⼼任务之一是根据从总体中抽取出的样本,也就是数据来估计未知的总体参数。参数的最优估计可以通过样本数据的分布,也就是采样分布(sampling distribution)来求解,由于频率统计将数据看作随机变量,所以计算采样分布是没有问题的。确定采样分布之后,参数估计可以等效成一个最优化的问题,而频率统计最常使用的最优化方法,就是最大似然估计(maximum likelihood estimation)。

回忆一下最大似然估计,它的目标是让似然概率最大化,也就是固定参数的前提之下,数据出现的条件概率最大化。这是频率学派估计参数的基本出发点:一组数据之所以能够在单次试验中出现,是因为它出现的可能性最大。而参数估计的过程就是赋予观测数据最大似然概率的过程。这可以通过下面这个简单的例子来说明:

“如果观测到的数据 θiθi