一种基于主题的文本聚类方法

被引:21
作者
赵世奇
刘挺
李生
机构
[1] 哈尔滨工业大学信息检索实验室
关键词
人工智能; 模式识别; 基于主题文本聚类; 基本类索引; 语言学特征;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法:LFIC。该方法能够准确识别文本主题并根据文本的主题对其进行聚类。本方法定义和抽取了“主题元素”,并利用其进行基本类索引。同时还整合利用了语言学特征。实验表明,LFIC的聚类准确率达到94.66%,优于几种传统聚类方法。
引用
收藏
页码:58 / 62
页数:5
相关论文
共 5 条
[1]  
Web Document Clustering:AFeasibility Demonstration. Zamir O,and Etzioni O. :Proceedings of the21st International ACM SIGIR Conference on Researchand Development in Information Retrieval . 1998
[2]  
A Hierar-chical Monothetic Document Clustering Algorithm forSummarization and Browsing Search Results. Kummamuru K,,Lotlikar R,Roy S,et al. :Proceedings of the 13th International Conference onWorld Wide Web . 2004
[3]  
Algorithms on Strings,Trees and Se-quences:Computer Science and Computational Biology. Gusfield D. . 1997
[4]  
AnInvestigation of Linguistic Features and Clustering Al-gorithms for Topical Document Clustering. Hatzivassiloglou V,,Gravano L,and Maganti A. Proceedings of the 23rd ACM SIGIR Conference . 2000
[5]  
Document Rank-ing and the Vector-Space Model. Lee D-L,,Chuang H,and Seamons K. IEEE Software . 1997