科技论文中学术信息的提取方法综述

被引:5
|
作者
胡志刚 [1 ,2 ]
田文灿 [1 ,2 ]
孙太安 [1 ,2 ]
侯海燕 [1 ,2 ]
机构
[1] 大连理工大学科学学与科技管理研究所
[2] 大连理工大学WISE实验室
关键词
学术信息; 论文全文本; 信息提取; 机器学习;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
为更好地利用和挖掘学术论文文本,识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求,在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景。学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息。本文综述了在PDF和HTML/XML两种不同格式的学术论文全文中,提取各类学术信息的主要方法,并指出这些方法主要面向的格式文本以及可用来提取的信息种类。最后,本文列出了提取学术信息的常用工具。
引用
收藏
页码:39 / 47
页数:9
相关论文
共 17 条
  • [1] 从书信沙龙到开放获取——刍议学术论文形态的演化
    胡志刚
    侯海燕
    林歌歌
    [J]. 数字图书馆论坛, 2016, (10) : 32 - 37
  • [2] XML结构化数字出版的特点与流程
    白杰
    杨爱臣
    [J]. 出版广角, 2015, (05) : 28 - 31
  • [3] 全文本引文分析——引文分析的新发展
    赵蓉英
    曾宪琴
    陈必坤
    [J]. 图书情报工作, 2014, 58 (09) : 129 - 135
  • [4] 基于XML全文数据引文分析系统的设计与实现
    胡志刚
    陈超美
    刘则渊
    侯海燕
    [J]. 现代图书情报技术, 2012, (11) : 72 - 77
  • [5] 数字出版相关概念的比较分析
    张立
    [J]. 中国出版, 2006, (12) : 11 - 14
  • [6] 全文引文分析[M]. 科学出版社 , 胡志刚, 2016
  • [7] Analyzing evolution of research topics with NEViewer: a new method based on dynamic co-word networks[J] . Xiaoguang Wang,Qikai Cheng,Wei Lu. Scientometrics . 2014 (2)
  • [8] Literature retrieval based on citation context
    Liu, Shengbo
    Chen, Chaomei
    Ding, Kun
    Wang, Bo
    Xu, Kan
    Lin, Yuan
    [J]. SCIENTOMETRICS, 2014, 101 (02) : 1293 - 1307
  • [9] Information Extraction from Chinese Papers Based on Hidden Markov Model[J] . Xun Li Fan,Fei Fei Du,Zhen Hua Xie. Advanced Materials Research . 2014 (846)
  • [10] A trigram hidden Markov model for metadata extraction from heterogeneous references
    Ojokoh, Bolanle
    Zhang, Ming
    Tang, Jian
    [J]. INFORMATION SCIENCES, 2011, 181 (09) : 1538 - 1551