期刊文章详细信息
文献类型:期刊文章
CHEN Lu;GUO Yu-Xiang;GE Cong-Cong;ZHENG Bai-Hua;GAO Yun-Jun(College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;Data Intelligence Innovation Lab,Huawei Cloud Computing Technologies Co.Ltd.,Hangzhou 310052,China;School of Computing and Information Systems,Singapore Management University,Singapore)
机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]华为云计算公司数据智能创新Lab,浙江杭州310052 [3]School of Computing and Information Systems,Singapore Management University,Singapore
基 金:国家重点研发计划(2021YFC3300303);国家自然科学基金(62025206,61972338,62102351)。
年 份:2023
卷 号:34
期 号:3
起止页码:1126-1147
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD2023_2024、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%.
关 键 词:数据治理 数据质量 错误检测 联邦学习
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...