自然语言处理预训练模型的研究综述

被引:53
作者
余同瑞 [1 ]
金冉 [1 ,2 ]
韩晓臻 [1 ]
李家辉 [1 ]
郁婷 [1 ]
机构
[1] 浙江万里学院大数据与软件工程学院
[2] 浙江大学计算机科学与技术学院
关键词
深度学习; 自然语言处理; 预处理; 词向量; 语言模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。
引用
收藏
页码:12 / 22
页数:11
相关论文
共 8 条
[1]  
Continuous space language models[J] . Holger Schwenk.Computer Speech & Language . 2006 (3)
[2]  
Camem BERT:a tasty French language model .2 Martin L,Muller B,Suárez P J O,et al. . 2019
[3]  
Pre-trained language model representations for language generation .2 Edunov S,Baevski A,Auli M,et al. Proceedings of NAACL-HLT . 2019
[4]  
Is BERT really robust?a strong baseline for natural language attack on text classification and entailment .2 Jin D,Jin Z,Zhou J T,et al. Proceedings of the AAAIConference on Articial Intelligence . 2020
[5]  
Semi-supervised sequence learning .2 Dai A M,Le Q V. Proceedings of the 28th International Conference on Neural Information Processing Systems . 2015
[6]  
Universal Language Model Fine-Tuning for Text Classification .2 Howard J,Ruder S. . 2018
[7]  
Regularizing and optimizing lstm language models .2 MERITY S,KESKAR N S,SOCHER R. . 2017
[8]  
Attention Is All You Need .2 VASWANI A,SHAZEER N,PARMAR N,et al. . 2017