话题跟踪中静态和动态话题模型的核捕捉衰减

被引:18
作者
洪宇
仓玉
姚建民
周国栋
朱巧明
机构
[1] 苏州大学计算机科学与技术学院
关键词
话题跟踪; 静态话题模型; 动态话题模型; 核捕捉衰减; 突发式增量式学习; 时序事件链;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.
引用
收藏
页码:1100 / 1119
页数:20
相关论文
共 5 条
[1]   基于子话题分治匹配的新事件检测 [J].
洪宇 ;
张宇 ;
范基礼 ;
刘挺 ;
李生 .
计算机学报, 2008, (04) :687-695
[2]   基于多策略优化的分治多层聚类算法的话题发现研究 [J].
骆卫华 ;
于满泉 ;
许洪波 ;
王斌 ;
程学旗 .
中文信息学报, 2006, (01) :29-36
[3]   Detection As Multi-Topic Tracking [J].
James Allan .
Information Retrieval, 2002, 5 :139-157
[4]  
Semantic Language Models for Topic Detection and Tracking .2 R Nallapati. Proceedings of HL T-NAACL 2003 Student Research Workshop . 2003
[5]  
Multi-paragraph segmentation of expository text .2 Hearst M A. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics . 1994