到目前为止,专栏中介绍的机器学习模型都属于参数模型,它们利用训练数据求解出关于问题的一般性知识,再将这些知识通过全局性模型的结构和参数加以外化。

一旦模型的结构和参数被确定,它们就不再依赖训练数据,可以直接用于未知数据的预测。而径向基核的出现一定程度上打破了这种规律,它将普适的全局特性打散成若干局部特性的组合,每个局部特性只能在它所覆盖的近邻区域内得以保持,由此产生的非结构化模型会具有更加灵活的表示能力。

在我看来,局部化的核心作用是模型复杂度和拟合精确性的折中。如果将整个输入空间看作一个大的整体区间,对它进行全局式的建模,那么单个模型就足以描述输入输出之间的规律,但这不可避免地会对表达能力造成较大的限制。

一个极端的情形是让所有输入的输出都等于同一个常数,这样的模型显然毫无信息量可言。可是在另一个极端,如果将局部特性继续加以细化,细化到让每个数据点都定义出不同局部特性的子区间,其结果就是基于实例的学习。

基于实例的学习(instance-based learning)也叫基于记忆的学习(memory-based learning),它学习的不是明确的泛化模型,而是样本之间的关系

当新的样本到来时,这种学习方式不会用拟合好的算式去计算输出结果或是输出结果的概率,而是根据这个新样本和训练样本之间的关系来确定它的输出。在本地化的语境里,这就叫“近朱者赤,近墨者黑”。

在基于实例的学习方法中,最典型的代表就是 kk