基于表示学习的中文分词

被引:5
作者
刘春丽
李晓戈
刘睿
范贤
杜丽萍
机构
[1] 西安邮电大学计算机学院
关键词
表示学习; 词向量; 聚类; 条件随机场; 中文分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。
引用
收藏
页码:2794 / 2798
页数:5
相关论文
共 5 条
[1]   基于互信息改进算法的新词发现对中文分词系统改进 [J].
杜丽萍 ;
李晓戈 ;
于根 ;
刘春丽 ;
刘睿 .
北京大学学报(自然科学版), 2016, 52 (01) :35-40
[2]   基于表示学习的中文分词算法探索 [J].
来斯惟 ;
徐立恒 ;
陈玉博 ;
刘康 ;
赵军 .
中文信息学报, 2013, 27 (05) :8-14
[3]   基于隐马尔科夫模型的中文分词研究 [J].
魏晓宁 .
电脑知识与技术(学术交流), 2007, (21) :885-886
[4]  
Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J] . Jianfeng Gao,Mu Li,Chang-Ning Huang,Andi Wu.Computational Linguistics . 2005 (4)
[5]  
Simple semi-supervised dependency parsing .2 Koo T,Carreras X,Collins M. Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics . 2008