期刊文章详细信息
文献类型:期刊文章
SONG Ling-ling;WANG Shi-hui;YANG Chao;SHENG Xiao(School of Computer and Information Engineering,Hubei University,Wuhan 430062,China;Hubei Provincial Education Information Engineering Technology Research Center,Wuhan 430062,China;Hubei Key Laboratory of Applied Mathematics,School of Mathematics and Statistics,Hubei University,Wuhan 430062,China)
机构地区:[1]湖北大学计算机与信息工程学院,武汉430062 [2]湖北省教育信息化工程技术研究中心,武汉430062 [3]湖北大学数学与统计学学院应用数学湖北省重点实验室,武汉430062
基 金:国家自然科学基金(61977021);应用数学湖北省重点实验室开放基金资助项目(HBAM201902)。
年 份:2020
卷 号:47
期 号:6
起止页码:98-103
语 种:中文
收录情况:BDHX、BDHX2017、CSA、CSCD、CSCD_E2019_2020、IC、JST、RCCSE、UPD、ZGKJHX、核心刊
摘 要:传统分类器在处理不平衡数据时,往往会倾向于保证多数类的准确率而牺牲少数类的准确率,导致少数类的误分率较高。针对这一问题,提出一种面向二分类不平衡数据的XGBoost(eXtreme Gradient Boosting)改进方法。其主要思想是分别从数据、特征以及算法3个层面针对不平衡数据的特点进行改进。首先在数据层面,通过条件生成式对抗网络(Conditional Generative Adversarial Nets,CGAN)学习少数类样本的分布信息,训练生成器生成少数类补充样本,调节数据的不平衡性;其次在特征层面,先利用XGBoost进行特征组合生成新的特征,再通过最大相关最小冗余(minimal Redundancy-Maximal Relevance,mRMR)算法筛选出更适合不平衡数据分类的特征子集;最后在算法层面,引入针对不平衡数据分类问题的焦点损失函数(Focal Loss)来改进XGBoost,改进后的XGBoost通过新的数据集训练得到最终模型。在实验阶段,选择G-mean和AUC作为评价指标,6组KEEL数据集上的实验结果验证了所提改进方法的可行性;同时将该方法与现有的4种不平衡分类模型进行比较,实验结果表明所提改进方法具有较好的分类效果。
关 键 词:不平衡数据 XGBoost FOCAL LOSS 特征组合 mRMR CGAN
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...