基于词共现图的中文微博新闻话题识别

被引:27
作者
赵文清
侯小可
机构
[1] 华北电力大学控制与计算机工程学院
基金
中央高校基本科研业务费专项资金资助;
关键词
微博; 新闻话题; 新闻话题识别; 主题词; 词共现图;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.
引用
收藏
页码:444 / 449
页数:6
相关论文
共 10 条
[1]   基于隐主题分析和文本聚类的微博客中新闻话题的发现 [J].
路荣 ;
项亮 ;
刘明荣 ;
杨青 .
模式识别与人工智能, 2012, 25 (03) :382-387
[2]   一种基于词共现的文档聚类算法 [J].
常鹏 ;
冯楠 ;
马辉 .
计算机工程, 2012, 38 (02) :213-214+220
[3]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[4]   动态向量的中文短文本聚类 [J].
金春霞 ;
周海岩 .
计算机工程与应用 , 2011, (33) :156-158
[5]   高效的短文本主题词抽取方法 [J].
常鹏 ;
马辉 .
计算机工程与应用, 2011, 47 (20) :126-128+154
[6]   大规模短文本的不完全聚类 [J].
彭泽映 ;
俞晓明 ;
许洪波 ;
刘春阳 .
中文信息学报, 2011, 25 (01) :54-59
[7]   基于字符串相似性聚类的网络短文本舆情热点发现技术 [J].
杨震 ;
段立娟 ;
赖英旭 .
北京工业大学学报, 2010, 36 (05) :669-673
[8]   一种高稳定性词汇共现模型 [J].
乔亚男 ;
齐勇 ;
侯迪 .
西安交通大学学报, 2009, 43 (06) :24-27
[9]   一种基于词共现图的文档主题词自动抽取方法 [J].
耿焕同 ;
蔡庆生 ;
于琨 ;
赵鹏 .
南京大学学报(自然科学版), 2006, (02) :156-162
[10]  
一种基于词共现图的文档自动摘要研究[J]. 耿焕同,蔡庆生,赵鹏,于琨.情报学报. 2005 (06)