共 2 条
基于改进CURE算法的微博热点话题发现
被引:12
作者:
杨长春
周猛
叶施仁
徐小松
机构:
[1] 常州大学信息科学与工程学院
来源:
关键词:
稀疏矩阵;
热点话题;
层次聚类算法;
博文种子集;
改进层次聚类算法;
D O I:
暂无
中图分类号:
TP393.092 [];
学科分类号:
080402 ;
摘要:
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。
引用
收藏
页码:383 / 387
页数:5
相关论文

