专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202011335129.X
申 请 日:20201125
申 请 人:电信科学技术第十研究所有限公司
申请人地址:710061 陕西省西安市雁塔西路6号
公 开 日:20240329
公 开 号:CN112395292B
代 理 人:党娟娟;郭永丽
代理机构:广州三环专利商标代理有限公司
语 种:中文
摘 要:本发明公开了一种数据特征提取、匹配方法及装置,涉及通信技术领域。该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中;利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要;基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
主 权 项:1.一种数据特征提取、匹配方法,其特征在于,包括:利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;对具有相同来源的所述规范数据通过标识进行关联;对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配,将具有关联关系的匹配结果打包为zip文件。
关 键 词:非结构化数据 文件内容 库表 结构化数据 结构文件 目标库 图片库 数据特征提取 通信技术领域 原始数据库表 非结构数据 图形化界面 编码转换 关联关系 匹配结果 数据加载 大平台 时间戳 加载 去重 打包 匹配 清洗 写入 关联 图片 配置
IPC专利分类号:G06F16/22;G06F16/25;G06F16/182;G06F16/51
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...