一种中文微博新闻话题检测的方法

被引:78
作者
郑斐然
苗夺谦
张志飞
高灿
机构
[1] 同济大学计算机科学与技术系
[2] 同济大学嵌入式系统与服务计算教育部重点实验室
关键词
微博; 新闻; 话题检测; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。
引用
收藏
页码:138 / 141
页数:4
相关论文
共 6 条
[1]   Twitter中近似重复消息的判定方法研究 [J].
曹鹏 ;
李静远 ;
满彤 ;
刘悦 ;
程学旗 .
中文信息学报, 2011, (01) :20-27
[2]   基于语义的微博短信息分类 [J].
崔争艳 .
现代计算机(专业版), 2010, (08) :18-20+24
[3]   突发性事件中的微博客传播 [J].
蔡晓婷 .
新闻爱好者, 2010, (11) :78-79
[4]   话题检测与跟踪的评测及研究综述 [J].
洪宇 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (06) :71-87
[5]  
Earthquake shakes Twitter us-ers:Real-time event detection by social sensors .2 Sakaki T,Okazaki M,Matsno Y. Proceedingof the 19th International Conference on World Wide Web . 2010
[6]  
Short Text FeatureSelection for Micro-blog Mining .2 Liu Zi-tao,Yu Wen-chao,Chen Wei,et al. Computational Intelli-gence and Software Engineering,2010 . 2010