基于聚类与语义相似分析的多文本自动摘要方法

被引:6
|
作者
杜秀英
机构
[1] 广州航海学院图书馆
关键词
自动摘要; 云计算; 多文本; 聚类; 语义相似; 分布式处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
引用
收藏
页码:167 / 172
页数:6
相关论文
共 13 条