登录    注册    忘记密码

期刊文章详细信息

基于联邦学习的跨源数据错误检测方法  ( EI收录)  

Cross-source Data Error Detection Approach Based on Federated Learning

  

文献类型:期刊文章

作  者:陈璐[1] 郭宇翔[1] 葛丛丛[2] 郑白桦[3] 高云君[1]

CHEN Lu;GUO Yu-Xiang;GE Cong-Cong;ZHENG Bai-Hua;GAO Yun-Jun(College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;Data Intelligence Innovation Lab,Huawei Cloud Computing Technologies Co.Ltd.,Hangzhou 310052,China;School of Computing and Information Systems,Singapore Management University,Singapore)

机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]华为云计算公司数据智能创新Lab,浙江杭州310052 [3]School of Computing and Information Systems,Singapore Management University,Singapore

出  处:《软件学报》

基  金:国家重点研发计划(2021YFC3300303);国家自然科学基金(62025206,61972338,62102351)。

年  份:2023

卷  号:34

期  号:3

起止页码:1126-1147

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD2023_2024、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%.

关 键 词:数据治理  数据质量 错误检测  联邦学习  

分 类 号:TP311]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心