基于doc2vec和TF-IDF的相似文本识别

被引:4
|
作者
贺益侗
机构
[1] 陕西省西安中学
关键词
人工智能; 深度学习; 自然语言处理;
D O I
10.16589/j.cnki.cn11-3571/tn.2018.18.016
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着第三次科技革命的推进,计算机技术飞速发展,其中人工智能的发展则受到特别的关注,主要应用领域则是文本,图像,语音等领域,人工智能的发展主要分为两个阶段,分别是传统机器学习阶段和深度学习阶段,在传统机器学习中,我们多使用统计的方式来解决机器学习问题,这个情况在深度学习出现以后逐渐发生变化,在深度学习中,我们多使用神经网络来解决我们遇到的问题,深度学习的方法有着拟合能力强的特点,非常适合于如今数据量爆炸般增长的特点,而由于计算机算力的飞速发展,深度学习的训练缓慢的特点也得到了改善,这使得如今深度学习越来越多地出现在工业界和学术界。我们本文主要探讨的就是深度学习在自然语言处理方面的应用,我们通过使用doc2vec的方式和模型融合的方式来获取文本的向量表示,并将这种向量表示应用于相似文本的分类。
引用
收藏
页码:37 / 39
页数:3
相关论文
共 3 条
  • [1] A Neural Probabilistic Language Model[J] . Yoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Janvin.Journal of Machine Learning Research . 2003
  • [2] INDEXING BY LATENT SEMANTIC ANALYSIS
    DEERWESTER, S
    DUMAIS, ST
    FURNAS, GW
    LANDAUER, TK
    HARSHMAN, R
    [J]. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE, 1990, 41 (06): : 391 - 407
  • [3] Sample Complexity of Testing the Manifold Hypothesis .2 Hariharan Narayanan,Sanjoy Mitter. Advances In Neural Information Processing Systems . 2010