一种基于特征嵌入神经网络的中文分词方法

被引:3
作者
王文涛
穆晓峰
王玲霞
机构
[1] 中南民族大学计算机科学学院
关键词
中文分词; 神经网络; 特征嵌入;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
针对传统基于特征的中文分词模型中,参数相对于训练数据过多而难以准确估计特征权值这一问题,提出了一种基于特征嵌入的神经网络方法.嵌入方法将特征转化为低维实值向量,能有效降低特征维度.另外,为了增强模型的性能,给出了一种学习速率线性衰减方法.研究了正则项的方法来增强模型的泛化能力.实验表明:文中提出的模型可以提高中文分词问题的求解效率.
引用
收藏
页码:102 / 106
页数:5
相关论文
共 3 条
[1]  
统计自然语言处理[M]. 清华大学出版社 , 宗成庆, 2007
[2]  
The Second International Chinese Word Segmentation Bakeoff .2 Emerson T. Proceedings of the Third SIHAN Workshop on Chinese Language Processing . 2005
[3]  
The Elements of Statistical Learning .2 Hastie T,Tibshirani R,Friedman J. . 2001