基于BERT的嵌入式文本主题模型研究

被引:11
作者
王宇晗 [1 ]
林民 [1 ]
李艳玲 [1 ]
赵佳鹏 [2 ,3 ]
机构
[1] 内蒙古师范大学计算机科学技术学院
[2] 中国科学院大学网络空间安全学院
[3] 中国科学院信息工程研究所
关键词
主题模型; BERT模型; 词嵌入; 词向量可视化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。
引用
收藏
页码:169 / 179
页数:11
相关论文
共 19 条
[1]   短文本分类模型的优化及应用 [J].
雷明珠 ;
邵新慧 .
计算机应用研究, 2021, 38 (06) :1775-1779
[2]   基于句子主题发现的中文多文档自动摘要研究 [J].
唐晓波 ;
顾娜 ;
谭明亮 .
情报科学 , 2020, (03) :11-16+28
[3]   基于在线主题模型的新闻热点演化模型分析 [J].
戴长松 ;
王永滨 ;
王琦 .
软件导刊, 2020, 19 (01) :84-88
[4]   融合主题词嵌入和网络结构分析的主题关键词提取方法 [J].
曾庆田 ;
胡晓慧 ;
李超 .
数据分析与知识发现, 2019, (07) :52-60
[5]   基于word2vec和双向LSTM的情感分类深度模型 [J].
黄贤英 ;
刘广峰 ;
刘小洋 ;
阳安志 .
计算机应用研究, 2019, 36 (12) :3583-3587+3596
[6]   基于双向LSTM语义强化的主题建模 [J].
彭敏 ;
杨绍雄 ;
朱佳晖 .
中文信息学报, 2018, (04) :40-49
[7]   基于Word2vec的微博短文本分类研究 [J].
张谦 ;
高章敏 ;
刘嘉勇 .
信息网络安全, 2017, (01) :57-62
[8]   词向量与LDA相融合的短文本分类方法 [J].
张群 ;
王红军 ;
王伦文 .
现代图书情报技术, 2016, (12) :27-35
[9]  
Topic Modeling in Embedding Spaces[J] . Adji B. Dieng,Francisco J. R. Ruiz,David M. Blei.Transactions of the Association for Computational Linguistics . 2020
[10]  
SpanBERT: Improving Pre-training by Representing and Predicting Spans[J] . Joshi Mandar,Chen Danqi,Liu Yinhan,Weld Daniel S.,Zettlemoyer Luke,Levy Omer.Transactions of the Association for Computational Linguistics . 2020