登录    注册    忘记密码

专利详细信息

一种基于大数据的数据分析方法       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN202311700827.9

申 请 日:20231212

发 明 人:刘海峰

申 请 人:华存数据信息技术有限公司

申请人地址:201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路351号2号楼601AE-15室

公 开 日:20240315

公 开 号:CN117708636A

代 理 人:陶新华

代理机构:池州市卓燊知识产权代理事务所(普通合伙)

语  种:中文

摘  要:本发明涉及数据分析技术领域,尤其为一种基于大数据的数据分析方法,包括以下步骤:S1,输入原始数据,通过时序图和箱线图获得原始数据的分布特征,根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值,填充原始数据中的数据缺失值,采用DFA进行原始数据的去趋势处理,以消除数据趋势项,采用K‑means聚类算法对原始数据进行聚类分析,并确定异常判断阈值,使用异常判断阈值与数据集密度的比较,判断数据集密度是否小于异常判断阈值,若是,则相应的原始数据为异常数据,否则为正常数据,根据正常数据和异常数据的位置标签,本发明可以有效解决现有数据分析方法处理数据的过程较为繁琐,智能化程度较低的问题。

主 权 项:1.一种基于大数据的数据分析方法,其特征在于,包括以下步骤:S1,输入原始数据,通过时序图和箱线图获得原始数据的分布特征,根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值,填充原始数据中的数据缺失值,采用DFA进行原始数据的去趋势处理,以消除数据趋势项,采用K-means聚类算法对原始数据进行聚类分析,并确定异常判断阈值,使用异常判断阈值与数据集密度的比较,判断数据集密度是否小于异常判断阈值,若是,则相应的原始数据为异常数据,否则为正常数据,根据正常数据和异常数据的位置标签,在原始数据中用红色标识异常数据,删除具有红色标识的原始数据;S2,根据原始数据获取基本特征,并确定特征衍生方式,根据确定的特征衍生方式对基本特征进行衍生,得到衍生特征,从互联网上获取具有相同衍生特征的数据,并将寻找到的数据编列为训练样本集,建立数据质量分析模型,将训练样本集输入数据质量分析模型分别得到分析指标,将分析指标分别乘以对应的初始权重并累加得到分析质量评分,将分析质量评分带入损失函数中,得到偏移值,把偏移值与预设阈值进行比对,若偏移值超过预设阈值,则调整数据质量分析模型重新,并使用训练样本集重新进行训练,直至计算出的偏移值低于预设阈值后,固定数据质量分析模型的各项参数;S3,将剔除了异常数据的原始数据输入数据质量分析模型中,数据质量分析模型对输入数据进行处理分析,得到数据分析指标。

关 键 词:原始数据  异常判断  分布特征  数据分析 异常数据 正常数据  数据分析技术 处理数据  聚类分析  聚类算法  判断数据  趋势处理  数据趋势  数据缺失  位置标签  有效解决  时序  大数据 点数据 数据集  智能化  超限 填充  剔除  

IPC专利分类号:G06F18/23213

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心