Skip to content

聚类

字数
367 字
阅读时间
2 分钟

一、特征属性分类

  1. 间隔特征属性
    • 连续变量,可加,可比,如:长度、速度等
  2. 有序特征属性
    • 等级变量,不可加,但可比,如:一等、二等、三等奖学金
  3. 名义特征属性
    • 类别变量,不可加也不可比,如:性别、职业等

二、明考斯基距离

  • 公式:(|xi1xj1|q+|xi2xj2|q+...+|xipxjp|q)q
    • q=1时就成为曼哈顿距离:
      • d(i,j)=|xi1xj1|+|xi2xj2|+...+|xipxjp|
    • q=2时就成为欧几里得距离:
      • d(i,j)=(|xi1xj1|2+|xi2xj2|2+...+|xipxjp|2)
      • 距离函数满足如下特性:
        • d(i,j)0
        • d(i,i)=0
        • d(i,j)=d(j,i)
        • d(i,j)d(i,k)+d(k,j)

三、K-均值聚类算法(K-means) ---- 基于划分的聚类算法

  • 执行过程:先随机选择k个对象作为不同簇的初始中心点(质心),再计算每一个点(对象)到每个簇质心的距离,将该点(对象)加入到其距离最近的簇,每加入一个点(对象)后,就需要重新计算一次簇的中心点(质心),直到簇的中心点(质心)不再变化

拓展

tips

如有兴趣,可以自行去了解基于层次的聚类算法

贡献者

The avatar of contributor named as freeway348 freeway348

文件历史

撰写