基于LDA模型和微博热度的热点挖掘

被引:68
作者
唐晓波
向坤
机构
[1] 武汉大学信息系统研究中心
关键词
LDA; 微博热度; 主题模型; 热点挖掘;
D O I
10.13266/j.issn.0252-3116.2014.05.010
中图分类号
G203 [信息资源及其管理];
学科分类号
1204 ; 1402 ;
摘要
分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。
引用
收藏
页码:58 / 63
页数:6
相关论文
共 6 条
[1]   基于信息熵理论的特征权重算法研究 [J].
郭红钰 .
计算机工程与应用, 2013, (10) :140-146
[2]   一种基于生命周期理论的文献热点发现方法——以肿瘤领域为例 [J].
赵迎光 ;
安新颖 ;
李勇 ;
贾晓峰 .
现代图书情报技术, 2012, (11) :86-91
[3]   基于中心化的微博热点发现方法 [J].
蔡淑琴 ;
张静 ;
王旸 ;
马玉涛 ;
林勇 .
管理学报, 2012, 9 (06) :874-879
[4]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[5]  
中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学. 2004
[6]  
A Comparative Study on Feature Selection in Text Categorization .2 Yang Y,Pedersen J O. The Fourteenth International Conference on Machine Learning . 1997