专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202311700827.9
申 请 日:20231212
申 请 人:华存数据信息技术有限公司
申请人地址:201203 上海市浦东新区中国(上海)自由贸易试验区郭守敬路351号2号楼601AE-15室
公 开 日:20240315
公 开 号:CN117708636A
代 理 人:陶新华
代理机构:池州市卓燊知识产权代理事务所(普通合伙)
语 种:中文
摘 要:本发明涉及数据分析技术领域,尤其为一种基于大数据的数据分析方法,包括以下步骤:S1,输入原始数据,通过时序图和箱线图获得原始数据的分布特征,根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值,填充原始数据中的数据缺失值,采用DFA进行原始数据的去趋势处理,以消除数据趋势项,采用K‑means聚类算法对原始数据进行聚类分析,并确定异常判断阈值,使用异常判断阈值与数据集密度的比较,判断数据集密度是否小于异常判断阈值,若是,则相应的原始数据为异常数据,否则为正常数据,根据正常数据和异常数据的位置标签,本发明可以有效解决现有数据分析方法处理数据的过程较为繁琐,智能化程度较低的问题。
主 权 项:1.一种基于大数据的数据分析方法,其特征在于,包括以下步骤:S1,输入原始数据,通过时序图和箱线图获得原始数据的分布特征,根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值,填充原始数据中的数据缺失值,采用DFA进行原始数据的去趋势处理,以消除数据趋势项,采用K-means聚类算法对原始数据进行聚类分析,并确定异常判断阈值,使用异常判断阈值与数据集密度的比较,判断数据集密度是否小于异常判断阈值,若是,则相应的原始数据为异常数据,否则为正常数据,根据正常数据和异常数据的位置标签,在原始数据中用红色标识异常数据,删除具有红色标识的原始数据;S2,根据原始数据获取基本特征,并确定特征衍生方式,根据确定的特征衍生方式对基本特征进行衍生,得到衍生特征,从互联网上获取具有相同衍生特征的数据,并将寻找到的数据编列为训练样本集,建立数据质量分析模型,将训练样本集输入数据质量分析模型分别得到分析指标,将分析指标分别乘以对应的初始权重并累加得到分析质量评分,将分析质量评分带入损失函数中,得到偏移值,把偏移值与预设阈值进行比对,若偏移值超过预设阈值,则调整数据质量分析模型重新,并使用训练样本集重新进行训练,直至计算出的偏移值低于预设阈值后,固定数据质量分析模型的各项参数;S3,将剔除了异常数据的原始数据输入数据质量分析模型中,数据质量分析模型对输入数据进行处理分析,得到数据分析指标。
关 键 词:原始数据 异常判断 分布特征 数据分析 异常数据 正常数据 数据分析技术 处理数据 聚类分析 聚类算法 判断数据 趋势处理 数据趋势 数据缺失 位置标签 有效解决 时序 大数据 点数据 数据集 智能化 超限 填充 剔除
IPC专利分类号:G06F18/23213
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...