基于改进CURE算法的微博热点话题发现

被引:12
作者
杨长春
周猛
叶施仁
徐小松
机构
[1] 常州大学信息科学与工程学院
关键词
稀疏矩阵; 热点话题; 层次聚类算法; 博文种子集; 改进层次聚类算法;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。
引用
收藏
页码:383 / 387
页数:5
相关论文
共 2 条
[1]   一种改进的CURE聚类算法 [J].
郭俊 ;
樊彦国 .
内蒙古石油化工, 2005, (08) :12-15
[2]   增量式CURE聚类算法研究 [J].
冯兴杰 ;
黄亚楼 .
小型微型计算机系统, 2004, (10) :1847-1849