首页
学术期刊
论文检测
AIGC检测
热点
更多
数据
中文文本分类中特征抽取方法的比较研究
被引:215
作者
:
论文数:
引用数:
h-index:
机构:
代六玲
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
黄河燕
陈肇雄
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
陈肇雄
机构
:
[1]
南京理工大学计算机科学系
[2]
中国科学院计算机语言信息工程研究中心
[3]
中国科学院计算机语言信息工程研究中心 南京
[4]
北京
来源
:
中文信息学报
|
2004年
/ 01期
关键词
:
计算机应用;
中文信息处理;
文本自动分类;
特征抽取;
支持向量机;
KNN;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
引用
收藏
页码:26 / 32
页数:7
相关论文
共 5 条
[1]
文本分割算法对中文信息过滤影响研究
[J].
朱寰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
朱寰
;
阮彤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
阮彤
;
于庆喜
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
于庆喜
.
计算机工程与应用,
2002,
(13)
:62
-65
[2]
一种改进的kNN方法及其在文本分类中的应用
[J].
孙丽华
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
孙丽华
;
张积东
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
张积东
;
李静梅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
李静梅
.
应用科技,
2002,
(02)
:25
-27
[3]
中文文本的关键词自动抽取和模糊分类
[J].
何新贵
论文数:
0
引用数:
0
h-index:
0
机构:
北京系统工程研究所
何新贵
;
彭甫阳
论文数:
0
引用数:
0
h-index:
0
机构:
北京系统工程研究所
彭甫阳
.
中文信息学报,
1999,
(01)
:10
-16
[4]
语言计算与基于内容的文本处理[M]. 清华大学出版社 , 孙茂松, 2003
[5]
A tutorial on Support Vector Machines for pattern recognition
[J].
Burges, CJC
论文数:
0
引用数:
0
h-index:
0
机构:
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Burges, CJC
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:121
-167
←
1
→
共 5 条
[1]
文本分割算法对中文信息过滤影响研究
[J].
朱寰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
朱寰
;
阮彤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
阮彤
;
于庆喜
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
于庆喜
.
计算机工程与应用,
2002,
(13)
:62
-65
[2]
一种改进的kNN方法及其在文本分类中的应用
[J].
孙丽华
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
孙丽华
;
张积东
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
张积东
;
李静梅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机科学与技术学院
李静梅
.
应用科技,
2002,
(02)
:25
-27
[3]
中文文本的关键词自动抽取和模糊分类
[J].
何新贵
论文数:
0
引用数:
0
h-index:
0
机构:
北京系统工程研究所
何新贵
;
彭甫阳
论文数:
0
引用数:
0
h-index:
0
机构:
北京系统工程研究所
彭甫阳
.
中文信息学报,
1999,
(01)
:10
-16
[4]
语言计算与基于内容的文本处理[M]. 清华大学出版社 , 孙茂松, 2003
[5]
A tutorial on Support Vector Machines for pattern recognition
[J].
Burges, CJC
论文数:
0
引用数:
0
h-index:
0
机构:
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Burges, CJC
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:121
-167
←
1
→