基于最近邻子空间搜索的两类文本分类方法

被引:3
作者
李玉鑑
王影
冷强奎
机构
[1] 北京工业大学计算机学院
基金
北京市自然科学基金;
关键词
文本分类; 最近邻子空间搜索; 最近邻搜索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。
引用
收藏
页码:168 / 172
页数:5
相关论文
共 2 条
[1]   矩阵的奇异值分解在文本分类研究中的应用 [J].
刘贵龙 ;
王慧玲 ;
宋柔 .
计算机工程, 2002, (12) :17-18+100
[2]   Using linear algebra for intelligent information retrieval [J].
Berry, MW ;
Dumais, ST ;
OBrien, GW .
SIAM REVIEW, 1995, 37 (04) :573-595