学术文本的结构功能识别——功能框架及基于章节标题的识别

被引:52
|
作者
陆伟
黄永
程齐凯
机构
[1] 武汉大学信息资源研究中心,信息检索与知识挖掘研究所
关键词
文本挖掘; 结构功能; 自动分类;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
摘要
当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。
引用
收藏
页码:979 / 985
页数:7
相关论文
共 6 条
  • [1] 基于NEViewer的学科主题演化可视化分析
    王晓光
    程齐凯
    [J]. 情报学报, 2013, 32 (09) : 900 - 911
  • [2] Where are citations located in the body of scientific articles? A study of the distributions of citation locations
    Hu, Zhigang
    Chen, Chaomei
    Liu, Zeyuan
    [J]. JOURNAL OF INFORMETRICS, 2013, 7 (04) : 887 - 896
  • [3] The distribution of references across texts: Some implications for citation analysis[J] . Ying Ding,Xiaozhong Liu,Chun Guo,Blaise Cronin.Journal of Informetrics . 2013 (3)
  • [4] Logical Structure Recovery in Scholarly Articles with Rich Document Features[J] . Minh-Thang Luong,Thuy Dung Nguyen,Min-Yen Kan.International Journal of Digital Library Systems (IJDLS) . 2010 (4)
  • [5] Citation parsing using maximum entropy and repairs .2 Kiat N Y. Tech.rep.National University of Singapore . 2005
  • [6] Artificial neural networks for document analysis and recognition .2 S Marinai,M Gori,G Soda,C Society. IEEE transactions on pattern analysis and machine intelligence . 2005