专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202010675130.0
申 请 日:20200714
申 请 人:中国农业银行股份有限公司上海市分行
申请人地址:200120 上海市浦东新区银城路9号
公 开 日:20250117
公 开 号:CN111814187B
代 理 人:陆嘉
代理机构:上海专利商标事务所有限公司
语 种:中文
摘 要:本发明揭示了一种大数据脱敏方法,对多维度事实表中的指定数据进行脱敏,包括:初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵。空间变换步骤,按照列对每一个维度的指定数据进行变换,变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵。其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。本发明的大数据脱敏方法利用空间变换对敏感数据进行脱敏,脱敏后的数据的空间相对位置信息保留,空间变换造成的数据损失小于5%。该大数据脱敏方法也可以应用于分布式框架,以满足分布式系统大数据运算的需求。
主 权 项:1.一种大数据脱敏方法,其特征在于,对多维度事实表中的指定数据进行脱敏,包括:初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵;空间变换步骤,按照列对每一个维度的指定数据进行变换,所述变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵;其中,所述拉伸变换包括:生成一列随机放大系数,随机放大系数的数量与对应的列中的指定数据的数量相同,该列随机放大系数满足正态分布;将该列指定数据与该列随机放大系数相乘,得到经拉伸变换的列;所述扭曲变换包括:生成一Sigmod函数;生成一列随机附加系数,随机附加系数的数量与对应的列中的指定数据的数量相同,该列随机附加系数满足正态分布;使用所述Sigmod函数对该列指定数据进行运算,运算的结果与对应的随机附加系数相加得到经扭曲变换的列;其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。
关 键 词:空间变换 原始数据矩阵 数据矩阵 大数据 事实表 多维度 空间相对位置 分布式框架 维度 读取 归一化处理 敏感数据 分布式系统 拉伸变换 信息保留 数据损失 运算 扭曲 初始化 收缩
IPC专利分类号:G06F21/62;G06Q40/03;G06F7/58;G06F17/16
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...