14_机器学习__物以类聚,人以群分:聚类分析
文章目录
20 世纪 40 年代,美国心理学家罗伯特·泰昂和雷蒙德·卡泰尔借鉴人类学中的研究方法,提出“聚类分析”的概念,通过从相关矩阵中提取互相关的成分进行性格因素的研究。随着时间的推移,聚类分析的应用范围越来越广泛,逐渐演化成一种主要的机器学习方法。
聚类分析是一种无监督学习方法,其目标是学习没有分类标记的训练样本,以揭示数据的内在性质和规律。具体来说,聚类分析要将数据集划分为若干个互不相交的子集,每个子集中的元素在某种度量之下都与本子集内的元素具有更高的相似度。
用这种方法划分出的子集就是“聚类”(或称为“簇”),每个聚类都代表了一个潜在的类别。分类和聚类的区别也正在于此:分类是先确定类别再划分数据;聚类则是先划分数据再确定类别。
聚类分析本身并不是具体的算法,而是要解决的一般任务,从名称就可以看出这项任务的两个核心问题:一是如何判定哪些样本属于同一“类”,二是怎么让同一类的样本“聚”在一起。
解决哪些样本属于同一“类”的问题需要对相似性进行度量。无论采用何种划定标准,聚类分析的原则都是让类内样本之间的差别尽可能小,而类间样本之间的差别尽可能大。度量相似性最简单的方法就是引入距离测度,聚类分析正是通过计算样本之间的距离来判定它们是否属于同一个“类”。根据线性代数的知识,如果每个样本都具有 NN
文章作者
上次更新 10100-01-10