网络文本主题词的提取与组织研究

被引:13
作者
曾依灵
许洪波
白硕
机构
[1] 中国科学院计算技术研究所智能软件部
关键词
计算机应用; 中文信息处理; 主题词提取; 未登录词识别; 切分词拼接; 主题词聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在合理收录策略的挑选下,算法提取出了能够准确反映海量网络数据中关键因子的主题词串。为清晰地组织主题词,建立主题词与网络事件的有机联系,设计了新的词聚类策略对主题词提取结果进行处理,使表达同一热点的主题词合理地组织在一起,共同描述同一事件。在以实际网络文本为语料的实验中,算法表现出令人满意的性能。
引用
收藏
页码:64 / 70+80 +80
页数:8
相关论文
共 5 条
[1]  
On-line construction of suffix trees.[J].E. Ukkonen.Algorithmica.1995, 3
[2]  
文本聚类分析效果评价及文本表示研究.[D].周昭涛.中国科学院研究生院(计算技术研究所).2005, 02
[3]  
中文新词语自动检测研究.[D].邹纲.中国科学院研究生院(计算技术研究所).2004, 02
[4]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[5]   串频统计和词形匹配相结合的汉语自动分词系统 [J].
刘挺 ;
吴岩 ;
王开铸 .
中文信息学报, 1998, (01) :18-26