基于句子主题发现的中文多文档自动摘要研究

被引:7
作者
唐晓波 [1 ,2 ]
顾娜 [2 ]
谭明亮 [2 ]
机构
[1] 武汉大学信息资源研究中心
[2] 武汉大学信息管理学院
关键词
多文档自动摘要; 主题发现; LDA主题模型; 信息抽取;
D O I
10.13833/j.issn.1007-7634.2020.03.002
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。
引用
收藏
页码:11 / 16+28 +28
页数:7
相关论文
共 50 条
[1]   近70年文本自动摘要研究综述 [J].
刘家益 ;
邹益民 .
情报科学, 2017, (07) :154-161
[2]   近70年文本自动摘要研究综述 [J].
刘家益 ;
邹益民 .
情报科学, 2017, (07) :154-161
[3]  
A review on abstractive summarization methods. Khan A,Salim N. Journal of Theoretical and Applied Information Technology . 2014
[4]  
A review on abstractive summarization methods. Khan A,Salim N. Journal of Theoretical and Applied Information Technology . 2014
[5]  
Latent dirichlet allocation based multi-document summarization. R.Arora,B.Ravindran. The Workshop on Analytics for Noisy Unstructured Text Data . 2008
[6]  
Latent dirichlet allocation based multi-document summarization. R.Arora,B.Ravindran. The Workshop on Analytics for Noisy Unstructured Text Data . 2008
[7]  
LexRank: graph-based lexical centrality as salience in text summarization. Günes Erkan,Dragomir R. Radev. Journal of Artificial Organs . 2004
[8]  
LexRank: graph-based lexical centrality as salience in text summarization. Günes Erkan,Dragomir R. Radev. Journal of Artificial Organs . 2004
[9]  
TextRank:Bringing Order into Text. Mihalcea R,Tarau P,Mihalcea R. Unt Scholarly Works . 2004
[10]  
TextRank:Bringing Order into Text. Mihalcea R,Tarau P,Mihalcea R. Unt Scholarly Works . 2004