基于K近邻的过抽样算法在不平衡的医学资料中的应用

被引：4

作者：

周舒冬 ^{[1
]}

张磊 ^{[2
]}

李丽霞 ^{[1
]}

机构：

[1] 广东药学院公共卫生学院卫生统计学教研室

[2] 中山大学数学与计算科学学院

来源：

中国卫生统计 | 2008年 / 06期

关键词：

K近邻; 过抽样; 不平衡; 医学资料; 模式识别;

D O I：

暂无

中图分类号：

R195 [卫生调查与统计];

学科分类号：

100401 ;

摘要：

目的介绍一种基于K近邻的过抽样算法在不平衡的医学数据集分类中的应用。方法首先利用K近邻法删除在分类中容易与少数类混淆的多数类样本;再对新生成的训练集利用SMOTE算法进行少数类样本的扩充,以有效提高少数类的分类性能。结果利用社区人群的慢性阻塞性肺疾病资料验证,基于K近邻的过抽样算法的分类性能比合成少数类过抽样算法及欠抽样方法要强。结论当医学资料出现不平衡特征时,传统分类器的分类效果不佳,基于K近邻的过抽样算法能够获得良好的分类性能,在医学模式识别领域中有较好的应用前景。

引用

页码：566 / 569

页数：4