登录    注册    忘记密码

期刊文章详细信息

融合级联上采样与下采样的改进随机森林不平衡数据分类算法    

Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling

  

文献类型:期刊文章

作  者:郑建华[1,2] 李小敏[3] 刘双印[1,2] 李迪[4]

ZHENG Jian-hua;LI Xiao-min;LIU Shuang-yin;LI Di(College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou 510225,China;Guangdong Engineering&Technology Research Center for Smart Agriculture,Guangzhou 510225,China;College of Mechanical and Electrical Engineering,Zhongkai University of Agriculture and Engineering,Guangzhou 510225,China;School of Mechanical and Automotive Engineering,South China University of Technology,Guangzhou 510640,China)

机构地区:[1]仲恺农业工程学院信息科学与技术学院,广州510225 [2]广东省高校智慧农业工程技术研究中心,广州510225 [3]仲恺农业工程学院机电工程学院,广州510225 [4]华南理工大学机械与汽车工程学院,广州510640

出  处:《计算机科学》

基  金:国家重点研发计划(2018YFB1700500);国家自然科学基金(61471133,61871475);广东省科技计划项目(2017A070712019,2017B010126001,2020A1414050062);广东省教育厅项目(2016KZDXM001,2017GCZX001,2020KZDZX1121);广州市科技计划项目(201704030098)。

年  份:2021

卷  号:48

期  号:7

起止页码:145-154

语  种:中文

收录情况:BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、UPD、ZGKJHX、核心刊

摘  要:数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题。为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法。该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样。首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法。此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一。进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法。实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能。

关 键 词:级联上采样  随机森林  不平衡数据 分类算法  

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心