学术文本的结构功能识别——在学术搜索中的应用

被引:14
作者
黄永
陆伟
程齐凯
桂思思
机构
[1] 武汉大学信息管理学院信息检索与知识挖掘研究所
关键词
结构功能; 学术搜索; 域加权; 语言模型;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
在学术大数据环境下,学术文本挖掘研究向细粒度和语义化方向发展。学术文本的结构功能是对学术文本正文的结构及章节功能的概括。为探讨结构功能在学术搜索中的作用,本文将学术文本看作是个结构功能域的集合,使用域加权语言模型对学术文本结构功能进行加权,并以一般语言模型为基准,在INEX04数据上进行了文档级检索实验。实验结果表明本文所提出的模型取得了较大的提升,尤其在P@5上的相对提升达到13.93%。根据模型中各个结构功能域的权重参数分析可以得知,引言功能作用最大,相关研究、方法的作用次之,实验及结论的作用最小。本文的实验也证明了学术文本的结构功能在学术搜索中的应用价值。
引用
收藏
页码:425 / 431
页数:7
相关论文
共 21 条
[1]   学术文本的结构功能识别——功能框架及基于章节标题的识别 [J].
陆伟 ;
黄永 ;
程齐凯 .
情报学报, 2014, 33 (09) :979-985
[2]   学术文本的结构功能识别——基于章节内容的识别 [J].
黄永 ;
陆伟 ;
程齐凯 .
情报学报, 2016, (03) :293-300
[3]   基于域加权词频法的XML文档级检索实现与评价 [J].
陆伟 ;
Stephen Robertson .
中国图书馆学报, 2006, (06) :57-60
[4]  
Retrieval using Document Structure and Annotations. Ogilvie P. . 2010
[5]  
Combining document representations for known-item search. Ogilvie P,Callan J. Proceedings of the 26th annual international ACM SIG1R conference on Research and development in informaion retrieval . 2003
[6]  
Comparing citation contexts for information retrieval. Ritchie A,Robertson S,Teufel S. Proceedings of the 17th ACM Conference on Information and Knowledge Management (CIKM) . 2008
[7]  
A Probabilistic Retrieval Model for Semistructured Data. Jinyoung Kim,Xiaobing Xue,W. Bruce Croft. Advances in Information Retrieval . 2009
[8]  
Overview of INEX 2004. Malik S,Lalmas M,Fuhr N. . 2005
[9]  
XML-structured documents:retrievable units and inheritance. Robertson S,Lu W,MacFarlane A. Flexible Query Answering Systems . 2006
[10]  
Efficient,effective and flexible XML retrieval using summaries. Ali M S,Consens M P,Gu X,et al. INEX . 2006