基于LDA模型和HowNet的多粒度子话题划分方法

被引:11
作者
李湘东 [1 ,2 ]
巴志超 [1 ]
黄莉 [3 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
[3] 武汉大学图书馆
关键词
新闻报道; 子话题划分; 多粒度; 狄利克雷分配模型; 语义相似度计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(How Net)语义词典相结合的多粒度子话题划分方法(MGH-LDA)。首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分。通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。
引用
收藏
页码:1625 / 1629
页数:5
相关论文
共 13 条
[1]   基于用户角色定位的微博热点话题检测方法 [J].
杨武 ;
李阳 ;
卢玲 .
计算机应用, 2013, 33 (11) :3076-3079
[2]   基于依存连接权VSM的子话题检测与跟踪方法 [J].
周学广 ;
高飞 ;
孙艳 .
通信学报 , 2013, (08) :1-9
[3]   基于LDA的新闻话题子话题划分方法 [J].
赵爱华 ;
刘培玉 ;
郑燕 .
小型微型计算机系统, 2013, 34 (04) :732-737
[4]   基于潜在语义分析的微博主题挖掘模型研究 [J].
唐晓波 ;
王洪艳 .
图书情报工作, 2012, (24) :114-119
[5]   融合内容与时间特征的中文新闻子话题聚类 [J].
仲兆满 ;
李存华 ;
戴红伟 ;
刘宗田 .
计算机科学与探索, 2013, (04) :368-376
[6]   LDA模型在话题追踪中的应用 [J].
张晓艳 ;
王挺 ;
梁晓波 .
计算机科学, 2011, 38(S1) (S1) :136-139+152
[7]   一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[8]   一种改进的LDA主题模型 [J].
张小平 ;
周雪忠 ;
黄厚宽 ;
冯奇 ;
陈世波 ;
焦宏官 .
北京交通大学学报, 2010, (02) :111-114
[9]   基于子话题分治匹配的新事件检测 [J].
洪宇 ;
张宇 ;
范基礼 ;
刘挺 ;
李生 .
计算机学报, 2008, (04) :687-695
[10]   基于词元再评估的新事件检测模型 [J].
张阔 ;
李涓子 ;
吴刚 ;
王克宏 .
软件学报, 2008, (04) :817-828