一种自动发现、分割与标注引文元数据的方法

被引：2

作者：

高良才

汤帜

陶欣

房婧

机构：

[1] 北京大学计算机科学技术研究所

来源：

北京大学学报(自然科学版) | 2010年 / 46卷 / 06期

关键词：

引文元数据; 风格一致性; 元数据抽取; 数字图书馆;

D O I：

10.13209/j.0479-8023.2010.128

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。

引用

页码：893 / 900

页数：8

共 5 条

[1] SVM+BiHMM:基于统计方法的元数据抽取混合模型 [J].

张铭 ;

银平 ;

邓志鸿 ;

杨冬青 .

软件学报, 2008, (02) :358-368

[2] 英美学术文献的几种主要引文方式 [J].

蒋新 .

图书与情报 , 2003, (03) :26-30

[3] 论文元数据信息的自动抽取 [J].

李朝光 ;

张铭 ;

邓志鸿 ;

杨冬青 ;

唐世渭 .

计算机工程与应用, 2002, (21) :189-191+235

[4]

Learning Hidden Markov Model Structure for Information Extraction .2 Kristie Seymore,Andrew McCallum,Ronald Rosenfeld. Working Notes of the AAAI Workshop on Machine Learning for Information Extraction . 1999

[5]

Metadata extraction from Chinese research papers based on conditional random fields .2 Yu J,Fan X. Proc FSKD‘07 . 2007

← 1 →