互信息改进方法在术语抽取中的应用

被引:19
作者
杜丽萍 [1 ]
李晓戈 [1 ]
周元哲 [1 ]
邵春昌 [2 ]
机构
[1] 西安邮电大学计算机学院
[2] 中央民族大学理学院
关键词
术语抽取; 专业术语; 知识获取; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。
引用
收藏
页码:996 / 1000+1005 +1005
页数:6
相关论文
共 9 条
[1]   基于网络资源与用户行为信息的领域术语提取 [J].
闫兴龙 ;
刘奕群 ;
方奇 ;
张敏 ;
马少平 ;
茹立云 .
软件学报, 2013, 24 (09) :2089-2100
[2]   基于改进C-value方法的中文术语抽取 [J].
胡阿沛 ;
张静 ;
刘俊丽 .
现代图书情报技术, 2013, (02) :24-29
[3]   自动术语识别存在的问题及发展趋势综述 [J].
祝清松 ;
冷伏海 .
图书情报工作, 2012, (18) :104-109
[4]   基于混合策略的高精度长术语自动抽取 [J].
梁颖红 ;
张文静 ;
周德富 .
中文信息学报 , 2009, (06) :26-30
[5]   一种面向文本的概念抽取方法的研究 [J].
孙继鹏 ;
贾民 ;
刘增宝 .
计算机应用与软件, 2009, 26 (09) :28-30
[6]   基于词频分布变化统计的术语抽取方法 [J].
周浪 ;
张亮 ;
冯冲 ;
黄河燕 .
计算机科学, 2009, 36 (05) :177-180
[7]   基于质子串分解的中文术语自动抽取 [J].
何婷婷 ;
张勇 .
计算机工程, 2006, (23) :188-190
[8]   基于互信息的中文术语抽取系统 [J].
张锋 ;
许云 ;
侯艳 ;
樊孝忠 .
计算机应用研究, 2005, (05) :72-73+77
[9]  
基于多策略融合的中文术语抽取方法[J]. 周浪,史树敏,冯冲,黄河燕.情报学报. 2010 (03)