期刊文章详细信息
文献类型:期刊文章
机构地区:[1]太原师范学院科研处,山西晋中030619 [2]太原师范学院计算机系,山西晋中030619
基 金:山西省青年科学基金(201601D202040)
年 份:2017
卷 号:40
期 号:2
起止页码:255-261
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CAS、CSCD、CSCD_E2017_2018、JST、RCCSE、WOS、ZGKJHX、ZMATH、核心刊
摘 要:欠抽样是一类常见的解决非平衡数据分类的技术。传统抽样方法(如Kennard-Stone抽样和密度保持抽样)只考虑保持数据分布。已有欠抽样方法侧重抽取分类边界附近的样本,这样抽取的样本可能改变数据的原始分布特征,从而影响分类效果。提出数据冗余度的概念,即如果一个多数类样本处于多数类的密集区且距离分类边界或少数类样本较远,则样本冗余度较高。去冗余抽样(Redundancy-removed Sampling,RRS)采用传统抽样规则去掉多数类中冗余度相对较高的样本。这样的样本子集尽量包含对分类最有帮助的样本和保持原始数据分布,且两类样本数量相对均衡。实验结果表明,经RRS抽样的分类结果的总体精度高于其他抽样方法,尤其在分类精度较低的数据集上。同时,少数类样本的判别精度也有所提高。
关 键 词:非平衡数据 分类 抽样法 去冗余抽样
分 类 号:TP301]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...