基于互信息改进算法的新词发现对中文分词系统改进

被引:56
作者
杜丽萍
李晓戈
于根
刘春丽
刘睿
机构
[1] 西安邮电大学
关键词
新词识别; 未登录词; 互信息; PMI改进算法; 中文分词;
D O I
10.13209/j.0479-8023.2016.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。
引用
收藏
页码:35 / 40
页数:6
相关论文
共 11 条
[1]  
统计自然语言处理.[M].宗成庆; 编著.清华大学出版社.2007,
[2]   互信息改进方法在术语抽取中的应用 [J].
杜丽萍 ;
李晓戈 ;
周元哲 ;
邵春昌 .
计算机应用, 2015, 35 (04) :996-1000+1005
[3]   改进的基于词典的中文分词方法 [J].
莫建文 ;
郑阳 ;
首照宇 ;
张顺岚 .
计算机工程与设计, 2013, 34 (05) :1802-1807
[4]   中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[5]   基于混合策略的高精度长术语自动抽取 [J].
梁颖红 ;
张文静 ;
周德富 .
中文信息学报 , 2009, (06) :26-30
[6]   一种面向文本的概念抽取方法的研究 [J].
孙继鹏 ;
贾民 ;
刘增宝 .
计算机应用与软件, 2009, 26 (09) :28-30
[7]   基于统计信息的未登录词的扩展识别方法 [J].
韩艳 ;
林煜熙 ;
姚建民 .
中文信息学报, 2009, 23 (03) :24-30+50
[8]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[9]   基于质子串分解的中文术语自动抽取 [J].
何婷婷 ;
张勇 .
计算机工程, 2006, (23) :188-190
[10]   一种快速获取领域新词语的新方法 [J].
刘华 .
中文信息学报, 2006, (05) :17-23