基于混合并行遗传算法的文本聚类研究

被引:11
|
作者
何婷婷 [1 ]
戴文华 [1 ]
焦翠珍 [2 ]
机构
[1] 华中师范大学计算机科学系
[2] 咸宁学院计算机系
关键词
计算机应用; 中文信息处理; 并行遗传算法; K-Means聚类; 文本聚类; 向量空间模型; 特征抽取;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。
引用
收藏
页码:55 / 60
页数:6
相关论文
共 5 条
  • [1] 基于密度和对象方向聚类算法的改进
    孟海东
    张玉英
    [J]. 计算机工程与应用, 2006, (20) : 154 - 156
  • [2] 基于k-means聚类的无导词义消歧
    陈浩
    何婷婷
    姬东鸿
    [J]. 中文信息学报, 2005, (04) : 10 - 16
  • [3] 文档聚类中k-means算法的一种改进算法
    万小军
    杨建武
    陈晓鸥
    [J]. 计算机工程, 2003, (02) : 102 - 103+157
  • [4] 文本聚类中的贝叶斯后验模型选择方法
    姜宁
    史忠植
    [J]. 计算机研究与发展, 2002, (05) : 580 - 587
  • [5] 基于开放式语料的汉语术语的自动抽取[A]. 刘建舟,何婷婷,姬东鸿,刘晓华.Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C]. 2003