基于分层分割的科研领域文本信息挖掘

被引:2
作者
王鹏
赵逢禹
陈章
机构
[1] 上海理工大学光电信息与计算机工程学院
关键词
分层分割; 文本分割; 相似度计算; 热点内容发现;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
1205 ;
摘要
本文提出了一种分层分割的文本处理方法,根据科研文献的良构信息,将科研文献构建成分层信息模型,对于模型中不同节点,给出了相应的信息提取方法。对正文节点内容,提出一种间隔相似度计算方法进行文本分割,根据分割的结果进行主题词提取并根据提取结果进行科研文献相似性分析与文本挖掘。实验结果表明,科研文献分层信息模型的加权相似度适用于科研热点内容发现,分层分割能够实现科研文献不同节点内容对比分析与科研内容的挖掘。
引用
收藏
页码:85 / 91
页数:7
相关论文
共 16 条
[1]   基于LDA模型的文本分割 [J].
石晶 ;
胡明 ;
石鑫 ;
戴国忠 .
计算机学报, 2008, (10) :1865-1873
[2]   SCC——利用分类技术改进的短摘要比较方法 [J].
龚笔宏 .
清华大学学报(自然科学版), 2005, (S1) :1806-1809
[3]  
基于标题特征词密度聚类以及相似度计算的热点发现研究[D]. 韩晨靖.电子科技大学 2013
[4]   基于《知网》的词语相似度计算研究 [J].
袁晓峰 .
成都大学学报(自然科学版), 2011, (04) :339-341
[5]  
Text segmentation by product partition models and dynamic programming[J] . A. Kehagias. &nbspMathematical and Computer Modelling . 2004 (2)
[6]  
Topic analysis using a finite mixture model[J] . Hang Li,Kenji Yamanishi. &nbspInformation Processing and Management . 2002 (4)
[7]  
Integrating prosodic and lexical cues for automatic topic segmentation. Gkhan Tür,Andreas Stolcke,Dilek Hakkani-Tür,Elizabeth Shriberg. Computational Linguistics . 2001
[8]   RES [P]. 
澳大利亚专利 :AU5679373A ,1974-12-12
[9]  
Chi-nese named entity recognition using role model. Zhang Huaping,Liu Qun,Yu Hongkui,et al. The International Journal of Computational Linguisticsand Chinese Language Processing . 2003
[10]  
Prosody-based topic segmentation for mandarin broadcast news. Levow Gina-Anne. Proceedings of the HLT-NAACL2004 . 2004