登录    注册    忘记密码

期刊文章详细信息

民用建筑“四节一环保”数据的清洗与修复方法研究  ( EI收录)  

Research on Cleaning and Repairing Methods of Civil Building Data on Resources Saving and Environment Protection

  

文献类型:期刊文章

作  者:申鸿怡[1] 徐芳芳[2] 王新民[3]

SHEN Hongyi;XU Fangfang;WANG Xinmin(Center for Data Science,Academy for Advanced Interdisciplinary Studies,Peking University,Beijing 100871;College of Mathematics and Systems Science,Shandong University of Science and Technology,Qingdao 266590;School of Mathematical Sciences,Peking University,Beijing 100871)

机构地区:[1]北京大学前沿交叉学科研究院大数据科学研究中心,北京100871 [2]山东科技大学数学与系统科学学院,青岛266590 [3]北京大学数学科学学院,北京100871

出  处:《北京大学学报(自然科学版)》

基  金:国家重点研发计划(2018YFC0704300)和国家自然科学基金(11901359)资助。

年  份:2020

卷  号:56

期  号:5

起止页码:785-795

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CAS、CSCD、CSCD2019_2020、EI、IC、JST、MR、PROQUEST、RCCSE、SCOPUS、WOS、ZGKJHX、ZMATH、核心刊

摘  要:针对民用建筑“四节一环保”原始数据中存在的数据质量问题,使用多种方法实现数据清洗与数据修复。数据清洗方面,重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中,识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面,重点关注缺失值的填补及基于模型的数据修正。其中,缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法,并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型,拟合建筑运行能耗与各解释变量间的关系,对上海市建筑运行能耗相关数据进行数据修复。结果显示,单栋建筑能耗数据适合采用箱线图内限来识别异常记录,并使用中位数填补缺失数据;上海市建筑运行能耗相关数据中,岭回归模型的拟合情况最好。

关 键 词:四节一环保 数据清洗 数据修复 DBSCAN聚类算法 基于用户的协同过滤推荐算法  岭回归

分 类 号:TU17] TU201.5] TP311.13[计算机类]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心