期刊文章详细信息
融合级联上采样与下采样的改进随机森林不平衡数据分类算法
Improved Random Forest Imbalance Data Classification Algorithm Combining Cascaded Up-sampling and Down-sampling
文献类型:期刊文章
ZHENG Jian-hua;LI Xiao-min;LIU Shuang-yin;LI Di(College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou 510225,China;Guangdong Engineering&Technology Research Center for Smart Agriculture,Guangzhou 510225,China;College of Mechanical and Electrical Engineering,Zhongkai University of Agriculture and Engineering,Guangzhou 510225,China;School of Mechanical and Automotive Engineering,South China University of Technology,Guangzhou 510640,China)
机构地区:[1]仲恺农业工程学院信息科学与技术学院,广州510225 [2]广东省高校智慧农业工程技术研究中心,广州510225 [3]仲恺农业工程学院机电工程学院,广州510225 [4]华南理工大学机械与汽车工程学院,广州510640
基 金:国家重点研发计划(2018YFB1700500);国家自然科学基金(61471133,61871475);广东省科技计划项目(2017A070712019,2017B010126001,2020A1414050062);广东省教育厅项目(2016KZDXM001,2017GCZX001,2020KZDZX1121);广州市科技计划项目(201704030098)。
年 份:2021
卷 号:48
期 号:7
起止页码:145-154
语 种:中文
收录情况:BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、UPD、ZGKJHX、核心刊
摘 要:数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题。为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法。该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样。首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法。此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一。进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法。实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能。
关 键 词:级联上采样 随机森林 不平衡数据 分类算法
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...