登录    注册    忘记密码

期刊文章详细信息

改进的XGBoost在不平衡数据处理中的应用研究    

Application Research of Improved XGBoost in Imbalanced Data Processing

  

文献类型:期刊文章

作  者:宋玲玲[1] 王时绘[1,2] 杨超[1,2,3] 盛潇[1]

SONG Ling-ling;WANG Shi-hui;YANG Chao;SHENG Xiao(School of Computer and Information Engineering,Hubei University,Wuhan 430062,China;Hubei Provincial Education Information Engineering Technology Research Center,Wuhan 430062,China;Hubei Key Laboratory of Applied Mathematics,School of Mathematics and Statistics,Hubei University,Wuhan 430062,China)

机构地区:[1]湖北大学计算机与信息工程学院,武汉430062 [2]湖北省教育信息化工程技术研究中心,武汉430062 [3]湖北大学数学与统计学学院应用数学湖北省重点实验室,武汉430062

出  处:《计算机科学》

基  金:国家自然科学基金(61977021);应用数学湖北省重点实验室开放基金资助项目(HBAM201902)。

年  份:2020

卷  号:47

期  号:6

起止页码:98-103

语  种:中文

收录情况:BDHX、BDHX2017、CSA、CSCD、CSCD_E2019_2020、IC、JST、RCCSE、UPD、ZGKJHX、核心刊

摘  要:传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高。针对这一问题,提出一种面向二分类不平衡数据的XGBoost(eXtreme Gradient Boosting)改进方法。其主要思想是分别从数据、特征以及算法3个层面针对不平衡数据的特点进行改进。首先在数据层面,通过条件生成式对抗网络(Conditional Generative Adversarial Nets,CGAN)学习少数类样本的分布信息,训练生成器生成少数类补充样本,调节数据的不平衡性;其次在特征层面,先利用XGBoost进行特征组合生成新的特征,再通过最大相关最小冗余(minimal Redundancy-Maximal Relevance,mRMR)算法筛选出更适合不平衡数据分类的特征子集;最后在算法层面,引入针对不平衡数据分类问题的焦点损失函数(Focal Loss)来改进XGBoost,改进后的XGBoost通过新的数据集训练得到最终模型。在实验阶段,选择G-mean和AUC作为评价指标,6组KEEL数据集上的实验结果验证了所提改进方法的可行性;同时将该方法与现有的4种不平衡分类模型进行比较,实验结果表明所提改进方法具有较好的分类效果。

关 键 词:不平衡数据 XGBoost  FOCAL LOSS 特征组合  mRMR  CGAN  

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心