作为有向图模型的代表,贝叶斯网络将随机变量之间的条件独立性与依赖关系嵌入到图结构之中,既有助于直观表示,又能简化计算。但这是不是意味着贝叶斯网络可以通吃所有概率关系呢?并非如此。

下面这个例子就说明了贝叶斯网络的局限之处,它取自达芙妮·科勒(Daphne Koller)的经典教材《概率图模型》(Probabilistic Graphical Models)的例 3.8。

“四个学生 Alice、Bob、Charles 和 Debbie 在一个学习小组中,但由于 A 和 C、B 和 D 两两之间因为感情的纠葛导致没有交流,因此每个人可以交流的对象都只有 2 个。这样的关系应该如何表示呢?”

这四个学生可以建模成概率图中的四个结点,也就是四个随机变量。用贝叶斯网络构造这组关系时,由于 A 和 C 之间不存在交流,两者之间也就没有信息的流动,所以在给定 B 和 D 的前提下,A 和 C 是条件独立的;同样的道理,在给定 A 和 C 的前提下,B 和 D 也是条件独立的。这就要求构造出来的贝叶斯网络能够同时表示这两组条件独立性。

贝叶斯网络的局限性(图片来自 Probabilistic Graphical Models,图 3.10)

上图表示的是两种可能的贝叶斯网络结构,但两者都没法同时表示两个条件独立性。在左侧的子图中,从 A 到 C 的两条通路都是顺连结构,中间的结点分别是 B 和 D。固定的 B 和 D 堵塞了信息流动的通道,从而保证了 A 和 C 的条件独立性。

但反过来,B 和 D 是不是独立的呢?这两个结点与 A 共同构成了分连结构,因此它们关于 A 是条件独立的。可同时它们又和 C 构成了汇连结构,这意味着 C 的确定会同时导致 B 和 D 的变化,条件独立性也就无从谈起了。

右侧的子图同样存在缺陷。从上向下看,这是两个分连结构的拼凑,保证了 A 和 C 的条件独立;可如果换个角度,从下往上看的话,这又是两个汇连结构的拼凑,无论是 A 还是 C 都搭建了从 B 到 D 的通路,这样的结构也不能同时形成两组条件独立性。

说到底,这个例子中的结构就像咬住自己尾巴的贪食蛇,是一个典型的环状结构:每一个结点只与和它相邻的两个结点相关,和其他结点全部条件独立。这其实是将顺连结构的首尾扣在了一起,可就是这么简单的操作就足以让作为无环图的贝叶斯网络无计可施了。环状结构中其实不存在方向的概念,不管是顺时针还是逆时针的流动都能够回到原点,就像环路公交车不管是正向出发还是反向出发最终都要回到始发站。如果在这样的循环依赖结构上强加方向的限制,反而会起到适得其反的效果。

将贝叶斯网络中边的方向去掉,得到的就是马尔可夫随机场。马尔可夫随机场(Markov random field)又叫马尔可夫网络(Markov network),也是一种用来表示随机变量之间关系的概率图模型,但它的特点和贝叶斯网络恰恰相反:连接顶点的边没有方向,图中也可以存在环路结构

和贝叶斯网络相比,马尔可夫随机场侧重于表示随机变量之间的相互作用:虽然它不能进行因果的推理,却可以对循环依赖关系建模。如果用马尔可夫随机场来表示前文中的例子,得到的就是下图的结果。

马尔可夫随机场(图片来自 Probabilistic Graphical Models,图 3.10)

马尔可夫随机场的结构确定之后,接下来就要对它进行参数化(parameterization),以完成定量的计算。由于马尔可夫随机场中的变量之间的相互作用不再是明确的条件依赖关系,贝叶斯网络中的条件概率分布也就不再适用了。在参数化的过程中,马尔可夫随机场着重刻画变量之间的连接关系,并由此引入了因子(factor)的概念。

因子也叫势函数(potential function),是定义在结点所表示的变量子集上的非负函数,随机变量每一组可能的取值都对应着一个因子值。如果两个随机变量在某个特定取值上的因子越大,说明这两个随机变量在这一组取值上的兼容性越好,也就意味着这一组取值同时出现的可能性比较大。

利用因子概念就可以对前文的马尔可夫随机场加以参数化。假定 ABCD 四个随机变量都是二元变量,取值非 0 即 1,下图给出了对每两个相互关联的变量之间的因子定义。在第一个因子 ϕ1(A,B)ϕ1(A,B)