一种面向科技文献引言的信息抽取方法

被引:8
作者
朱丽萍 [1 ,2 ]
李洪奇 [1 ,2 ]
杨中国 [1 ,2 ]
刘蔷 [1 ,2 ]
机构
[1] 中国石油大学(北京)石油数据挖掘北京市重点实验室
[2] 中国石油大学(北京)地球物理与信息工程学院
关键词
科技文献; 信息抽取; 背景知识; 线索词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
分析了引言部分写作模型,将文本按照句子级别划分为背景知识、问题分析、工作描述三个类别。统计每个部分句子的引导词、句型表达、线索词、所处位置的特征,并构建相应规则库。在分词和词性标注基础上,利用规则匹配每个句子得出所属的类别,从而抽取出三个部分的信息。以石油勘探开发类科技文献和数据挖掘类科技文献为例,进行人工判别和本文方法抽取试验,结果表明本文方法能准确获取相应信息。
引用
收藏
页码:23 / 30+37 +37
页数:9
相关论文
共 16 条
[1]  
科技文献的文本特征抽取研究与应用.[D].于亮.北京邮电大学.2009, 03
[2]  
基于语义的科技文献共享平台的信息抽取系统.[D].黄泽武.华中科技大学.2007, 05
[3]   面向科技文献的混合语义信息抽取方法研究 [J].
冷伏海 ;
白如江 ;
祝清松 .
图书情报工作, 2013, (11) :112-119
[4]   正则表达式的研究及在Web中的应用 [J].
唐惠丽 ;
郑小妹 .
计算机技术与发展, 2013, 23 (02) :82-84+88
[5]   用规则抽取句子中事件信息 [J].
孙荣 ;
周文 ;
刘宗田 .
小型微型计算机系统, 2011, 32 (11) :2309-2314
[6]   自组织神经网络在火成岩岩性识别中的应用 [J].
张平 ;
潘保芝 ;
张莹 ;
王鹏 ;
董瑞新 .
石油物探, 2009, 48 (01) :53-56+16
[7]   基于统计和规则相结合的科技术语自动抽取研究 [J].
刘豹 ;
张桂平 ;
蔡东风 .
计算机工程与应用 , 2008, (23) :147-150
[8]   应用主题词/副主题词关联规则对专题知识的挖掘分析及评价 [J].
侯跃芳 ;
崔雷 ;
朱利娜 .
情报理论与实践, 2008, (02) :234-236
[9]   基于主题词对的文档重排方法 [J].
何婷婷 ;
许婷 ;
瞿国忠 ;
涂新辉 .
计算机工程与应用 , 2007, (11) :161-163
[10]   学术论文引言中的参考文献简析 [J].
朱大明 .
编辑学报, 2005, (03) :190-191