生成词向量的三种方法

被引:7
作者
冯志伟
机构
[1] 黑龙江大学/语言文字应用研究所
关键词
词向量; 神经网络; 连续跳元; 连续词袋; 奇异值分解; 布劳恩聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
在人工智能时代,神经网络已成为自然语言处理的一种重要工具。为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成。本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法。使用这些方法可以生成稠密的词向量,从而改进自然语言处理中神经网络的性能。这种稠密的词向量具有很多潜在优点。它们容易作为连续的实数值特征被纳入深度学习系统中,并在自然语言处理的神经网络系统中更好地发挥词嵌入的作用。连续跳元和连续词袋的方法通过发现嵌入的方式来学习词嵌入,在这样的嵌入中,邻近的单词具有较高的点积,而噪声词则具有较低的点积。因而这种方法可以训练一个神经网络来预测邻近的单词。在语义上相似的单词在文本中出现时常常是彼此邻近的,所以,如果能够很好地预测邻近单词的词嵌入,就可以较好地表示单词之间的相似性。在计算词嵌入时,这种方法得到广泛的采用,而且是行之有效的。奇异值分解是发现数据集合中最为重要的维度的方法。这种方法能够用于从完整的词项一词项矩阵或词项一文献矩阵中构建维度较低的词嵌入。布劳恩聚类方法是推导词向量表示的一种聚类算法。这种方法根据前面单词和后面单词之间的关联特征来对单词进行聚类。其算法使用了基于类别的语言模型。布劳恩聚类可以用来给单词建立二进制符号的向量,使其具有句法表示的功能。
引用
收藏
页码:18 / 26+3 +3
页数:10
相关论文
共 3 条
[1]   词向量及其在自然语言处理中的应用 [J].
冯志伟 .
外语电化教学, 2019, (01) :3-11
[2]  
自然语言计算机形式分析的理论与方法[M]. 中国科学技术大学出版社 , 冯志伟, 2017
[3]  
自然语言处理简明教程[M]. 上海外语教育出版社 , 冯志伟, 2012