登录    注册    忘记密码

期刊文章详细信息

基于典型数据集的数据预处理方法对比分析    

Comparative analysis of data preprocessing methodsbased on typical data set

  

文献类型:期刊文章

作  者:李颜平[1] 吴刚[2]

LI Yan-ping;WU Gang(School of Statistics and Data Science,Nankai University,Tianjin 300071,China;School of Computer Science and Engineering,Northeastern University,Shenyang 110004,China)

机构地区:[1]南开大学统计与数据科学学院,天津300071 [2]东北大学计算机科学与工程学院,沈阳110004

出  处:《沈阳工业大学学报》

基  金:国家重点研发计划项目(2019YFB1405300).

年  份:2022

卷  号:44

期  号:2

起止页码:185-192

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CAS、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:针对多种数据预处理方式及其组合如何提升模型拟合效果这一问题,基于UCI Machine Learning Repository典型数据集,分别利用20种变量处理方式和4种变量选择方法对数据预处理,并对模型拟合效果对比分析,分别考查了多种数据预处理方式及其组合对常见分类模型和回归模型的影响.通过对实验结果的分析讨论,提出一种启发式算法,根据数据特征、模型特点以及研究问题种类等信息推荐数据预处理方法.在更广泛的数据集上的实验结果表明,该算法所推荐的数据预处理方法可以一定程度上提升模型拟合效果,节省手工选取数据预处理方法的开销.

关 键 词:数据预处理 正态化  归一化  哑变量  方差分析 卡方检验 互信息 Copula熵  

分 类 号:TP306]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心