基于BERT的中文命名实体识别方法

被引:96
作者
王子牛 [1 ]
姜猛 [2 ]
高建瓴 [2 ]
陈娅先 [2 ]
机构
[1] 贵州大学网络与信息化管理中心
[2] 贵州大学大数据与信息工程学院
关键词
BERT; 命名实体识别; 序列标注; BiLSTM; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统的机器学习算法对中文实体识别准确率低、高度依赖特征设计以及领域自适应能力差的问题,提出了基于BERT的神经网络方法进行命名实体识别。首先,利用大规模未标注语料对BERT进行训练,获取文本抽象特征;然后,利用BiLSTM神经网络获取序列化文本的上下文抽象特征;最后,通过CRF进行序列解码标注,提取出相应的实体。该方法结合BERT和BiLSTM-CRF模型对中文实体进行识别,以无需添加任何特征的方式在1998上半年人民日报数据集上取得了94.86%的F1值。实验表明,该方法提升了实体识别的准确率、召回率及F1值,验证了该方法的有效性。
引用
收藏
页码:138 / 142
页数:5
相关论文
共 10 条
[1]   基于字词融合特征的微博情绪识别方法 [J].
殷昊 ;
徐健 ;
李寿山 ;
周国栋 .
计算机科学, 2018, 45(S2) (S2) :105-109
[2]   基于细粒度词表示的命名实体识别研究 [J].
林广和 ;
张绍武 ;
林鸿飞 .
中文信息学报, 2018, 32 (11) :62-71+78
[3]   基于BLSTM的命名实体识别方法 [J].
冯艳红 ;
于红 ;
孙庚 ;
孙娟娟 .
计算机科学, 2018, 45 (02) :261-268
[4]   基于SVM和CRF双层分类器的英文电子病历去隐私化 [J].
程健一 ;
关毅 ;
何彬 .
智能计算机与应用, 2016, 6 (06) :17-19+24
[5]   大数据分析的无限深度神经网络方法 [J].
张蕾 ;
章毅 .
计算机研究与发展, 2016, 53 (01) :68-79
[6]   利用CRF实现中文人名性别的自动识别 [J].
赵晓凡 ;
赵丹 ;
刘永革 .
微电子学与计算机, 2011, 28 (10) :122-124+128
[7]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[8]  
Attention Is All You Need. VASWANI A,SHAZEER N,PARMAR N,et al. . 2017
[9]  
Glove:Global vectors for word representation. Pennington J,Socher R,Manning C. Proceedings of the 2014 Conference on EMNLP . 2014
[10]  
Deep contextualized word representations. Peters M E,Neumann M,Iyyer M,et al. . 2018