期刊文章详细信息
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法
Classification method for imbalance dataset based on genetic algorithm improved synthetic minority over-sampling technique
文献类型:期刊文章
机构地区:[1]湖北文理学院数学与计算机科学学院,湖北襄阳441053 [2]中国地质大学计算机学院,武汉430074 [3]西南大学逻辑与智能研究中心,重庆400715
基 金:国家自然科学基金资助项目(61075063);湖北省自然科学基金资助项目(2013CFA004);中国博士后科学基金面上资助项目(2014M560700);重庆博士后特别资助项目(XM2014057)
年 份:2015
卷 号:35
期 号:1
起止页码:121-124
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。
关 键 词:非平衡数据集 分类 少数类样本合成过采样技术 采样倍率 遗传算法
分 类 号:TP311.13] TP18[计算机类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...