期刊文章详细信息

基于联邦学习的跨源数据错误检测方法 ( EI收录)
Cross-source Data Error Detection Approach Based on Federated Learning

文献类型：期刊文章

作　　者：陈璐[1] 郭宇翔[1] 葛丛丛[2] 郑白桦[3] 高云君[1]

CHEN Lu;GUO Yu-Xiang;GE Cong-Cong;ZHENG Bai-Hua;GAO Yun-Jun(College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;Data Intelligence Innovation Lab,Huawei Cloud Computing Technologies Co.Ltd.,Hangzhou 310052,China;School of Computing and Information Systems,Singapore Management University,Singapore)

机构地区：[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]华为云计算公司数据智能创新Lab,浙江杭州310052 [3]School of Computing and Information Systems,Singapore Management University,Singapore

出　　处：《软件学报》

基　　金：国家重点研发计划(2021YFC3300303);国家自然科学基金(62025206,61972338,62102351)。

年　　份：2023

卷　　号：34

期　　号：3

起止页码：1126-1147

语　　种：中文

收录情况：AJ、BDHX、BDHX2020、CSCD、CSCD2023_2024、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘　　要：随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%.

关键词：数据治理数据质量错误检测联邦学习

分类号：TP311]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于联邦学习的跨源数据错误检测方法 ( EI收录)
Cross-source Data Error Detection Approach Based on Federated Learning

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于联邦学习的跨源数据错误检测方法 ( EI收录) Cross-source Data Error Detection Approach Based on Federated Learning

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于联邦学习的跨源数据错误检测方法 ( EI收录)
Cross-source Data Error Detection Approach Based on Federated Learning