一种自动发现、分割与标注引文元数据的方法

被引:2
作者
高良才
汤帜
陶欣
房婧
机构
[1] 北京大学计算机科学技术研究所
关键词
引文元数据; 风格一致性; 元数据抽取; 数字图书馆;
D O I
10.13209/j.0479-8023.2010.128
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。
引用
收藏
页码:893 / 900
页数:8
相关论文
共 5 条
[1]   SVM+BiHMM:基于统计方法的元数据抽取混合模型 [J].
张铭 ;
银平 ;
邓志鸿 ;
杨冬青 .
软件学报, 2008, (02) :358-368
[2]   英美学术文献的几种主要引文方式 [J].
蒋新 .
图书与情报 , 2003, (03) :26-30
[3]   论文元数据信息的自动抽取 [J].
李朝光 ;
张铭 ;
邓志鸿 ;
杨冬青 ;
唐世渭 .
计算机工程与应用, 2002, (21) :189-191+235
[4]  
Learning Hidden Markov Model Structure for Information Extraction .2 Kristie Seymore,Andrew McCallum,Ronald Rosenfeld. Working Notes of the AAAI Workshop on Machine Learning for Information Extraction . 1999
[5]  
Metadata extraction from Chinese research papers based on conditional random fields .2 Yu J,Fan X. Proc FSKD‘07 . 2007