登录    注册    忘记密码

期刊文章详细信息

Web大数据环境下的不一致跨源数据发现  ( EI收录)  

Automatically Discovering of Inconsistency Among Cross-Source Data Based on Web Big Data

  

文献类型:期刊文章

作  者:余伟[1] 李石君[1] 杨莎[1,2] 胡亚慧[1,3] 刘晶[1] 丁永刚[1] 王骞[1]

机构地区:[1]武汉大学计算机学院,武汉430079 [2]汉口学院计算机科学与技术学院,武汉430212 [3]空军预警学院,武汉430070

出  处:《计算机研究与发展》

基  金:国家自然科学基金项目(61272109);中央高校基本科研业务费专项资金项目(2042014kf0057);湖北省自然科学基金项目(2014CFB289)

年  份:2015

卷  号:52

期  号:2

起止页码:295-308

语  种:中文

收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD2015_2016、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.

关 键 词:Web大数据  WEB数据挖掘 数据一致性 Web数据管理  数据质量评估 跨源数据分析  

分 类 号:TP311.13]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心