登录    注册    忘记密码

期刊文章详细信息

基于自然最近邻的不平衡数据欠采样方法    

Imbalanced Data Under-sampling Method Based on Natural Nearest Neighbor

  

文献类型:期刊文章

作  者:孟东霞[1] 魏晓光[1] 柳凌燕[2]

Meng Dongxia;Wei Xiaoguang;Liu Lingyan(School of Financial Technology,Hebei Finance University,Baoding Hebei 071051,China;School of Computer and Information Engineering,Hebei Finance University,Baoding Hebei 071051,China)

机构地区:[1]河北金融学院金融科技学院,河北保定071051 [2]河北金融学院信息工程与计算机学院,河北保定071051

出  处:《统计与决策》

基  金:河北省高校智慧金融应用技术研发中心项目(IFDC2022030C);河北省高等学校科学技术研究项目(QN2021220);河北省省级科技计划软科学研究专项(22557648D)。

年  份:2023

卷  号:39

期  号:15

起止页码:52-56

语  种:中文

收录情况:BDHX、BDHX2020、CSSCI、CSSCI2023_2024、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。

关 键 词:不平衡数据集 欠采样 自然最近邻  

分 类 号:TP311]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心