基于K近邻的过抽样算法在不平衡的医学资料中的应用

被引:4
作者
周舒冬 [1 ]
张磊 [2 ]
李丽霞 [1 ]
机构
[1] 广东药学院公共卫生学院卫生统计学教研室
[2] 中山大学数学与计算科学学院
关键词
K近邻; 过抽样; 不平衡; 医学资料; 模式识别;
D O I
暂无
中图分类号
R195 [卫生调查与统计];
学科分类号
100401 ;
摘要
目的介绍一种基于K近邻的过抽样算法在不平衡的医学数据集分类中的应用。方法首先利用K近邻法删除在分类中容易与少数类混淆的多数类样本;再对新生成的训练集利用SMOTE算法进行少数类样本的扩充,以有效提高少数类的分类性能。结果利用社区人群的慢性阻塞性肺疾病资料验证,基于K近邻的过抽样算法的分类性能比合成少数类过抽样算法及欠抽样方法要强。结论当医学资料出现不平衡特征时,传统分类器的分类效果不佳,基于K近邻的过抽样算法能够获得良好的分类性能,在医学模式识别领域中有较好的应用前景。
引用
收藏
页码:566 / 569
页数:4
相关论文
共 2 条
[1]   北京市某社区老年人6种慢性病发病状况分析 [J].
陈继彬 ;
刘磊 ;
车宜平 ;
陈慧 .
中国预防医学杂志, 2007, (03) :267-268
[2]   非平衡数据训练方法概述 [J].
张琦 ;
吴斌 ;
王柏 .
计算机科学, 2005, (10) :181-186