截至目前,我所介绍的模型都属于监督学习范畴,它们处理具有标签的输入数据,给出意义明确的输出,回归模型输出的是连续的回归值,分类模型输出的是离散的类别标签,这些模型都属于预测模型(predictive model)。

另一类模型则隶属于无监督学习,这类模型学习没有标签的数据,其作用也不是计算类别或回归值,而是要揭示关于数据隐藏结构的一些规律,因此也被称为描述模型(descriptive model)。聚类算法就是最具代表性的描述模型

聚类分析(cluster analysis)实际上是一种分组方式,它使每一组中的组内对象的相似度都高于组间对象的相似度,分出来的每个组都是一个簇(cluster)。由于相似度是聚类的依据,作为相似度主要度量方式之一的距离就在聚类中发挥着重要作用。

在“人工智能基础课”中,我曾介绍过四种主要的聚类算法,你可以结合下面的要点图回忆一下。除了以概率分布为基础的分布聚类以外,其他三类聚类算法都涉及对距离的使用,而其中最典型的就是 kk