基于字符串相似性聚类的网络短文本舆情热点发现技术

被引:25
作者
杨震
段立娟
赖英旭
机构
[1] 北京工业大学计算机学院
基金
北京市自然科学基金;
关键词
舆情分析; 短文本处理; 层次聚类;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.
引用
收藏
页码:669 / 673
页数:5
相关论文
共 5 条
[1]   SMS-2008标注中文短信息库 [J].
马旭 ;
徐蔚然 ;
郭军 ;
胡日勒 .
中文信息学报, 2009, (04) :22-26
[2]   基于语义的文本流形研究 [J].
杨震 ;
范科峰 ;
雷建军 ;
郭军 .
电子学报, 2009, 37 (03) :557-561
[3]   基于层次划分的最佳聚类数确定方法 [J].
陈黎飞 ;
姜青山 ;
王声瑞 .
软件学报, 2008, (01) :62-72
[4]  
基于改进编辑距离的中文相似句子检索[J]. 车万翔,刘挺,秦兵,李生.高技术通讯. 2004 (07)
[5]  
Social Network Analysis: A Handbook .2 Scott J. Sage Publications . 2000