一种改进的CURE聚类算法

被引：2

作者：

郭俊

樊彦国

机构：

[1] 石油大学(华东)资源与信息学院

来源：

内蒙古石油化工 | 2005年 / 08期

关键词：

数据挖掘; 层次聚类; 代表对象;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

聚类分析是数据挖掘领域的一个重要研究方向。已经有多种用于大规模数据库的聚类算法,CURE就是一个典型的代表。本文对CURE进行了改进,新方法用多点表示一个类,但舍弃了代表点收缩的过程;通过对类内最邻近距离统计特征的分析,提出了自动分离子类的方法,因而不用预先给定聚类个数;在CURE对原始数据进行随机采样和分区聚类的基础上,增加了划分网格一步,能降低噪声影响并缩短聚类时间。对二维数据的测试表明:改进的CURE能正确识别大多数类,速度上优于原算法。

引用

页码：12 / 15

页数：4