面向本体学习的中文专利术语抽取研究

被引:18
|
作者
王昊 [1 ,2 ]
王密平 [1 ,2 ]
苏新宁 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 南京大学江苏省数据工程与知识服务重点实验室
关键词
中文专利术语; 机器学习; 条件随机场; 字角色标注; 循环迭代; 合成规则; 本体学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。
引用
收藏
页码:573 / 585
页数:13
相关论文
共 25 条
  • [1] 基于专利分析的石墨烯技术创新态势研究
    郑佳
    党蓓
    [J]. 高技术通讯, 2015, 25 (06) : 622 - 630
  • [2] 基于多策略融合的专利术语自动抽取
    周绍钧
    吕学强
    李卓
    都云程
    [J]. 计算机应用与软件, 2015, 32 (02) : 28 - 32
  • [3] 专利术语抽取的层次过滤方法
    侯婷
    吕学强
    李卓
    [J]. 现代图书情报技术, 2015, (01) : 24 - 30
  • [4] 基于信息熵和词频分布变化的术语抽取研究
    李丽双
    王意文
    黄德根
    [J]. 中文信息学报, 2015, (01) : 82 - 87
  • [5] 领域本体术语的抽取方法研究
    张雷瀚
    吕学强
    李卓
    徐丽萍
    [J]. 情报学报, 2014, 33 (02) : 167 - 174
  • [6] 科技文献术语的自动抽取技术研究与分析
    曾文
    徐硕
    张运良
    翟娟华
    [J]. 现代图书情报技术, 2014, (01) : 51 - 55
  • [7] 中国电动车领域的专利统计分析
    陈立新
    [J]. 科技管理研究, 2013, 33 (01) : 164 - 168
  • [8] 基于领域中文文本的术语抽取方法研究
    谷俊
    王昊
    [J]. 现代图书情报技术, 2011, (04) : 29 - 34
  • [9] 基于语言特性的中文领域术语抽取算法
    傅继彬
    樊孝忠
    毛金涛
    余正涛
    [J]. 北京理工大学学报, 2010, 30 (03) : 307 - 310
  • [10] 基于统计和规则相结合的科技术语自动抽取研究
    刘豹
    张桂平
    蔡东风
    [J]. 计算机工程与应用, 2008, (23) : 147 - 150