专利详细信息

一种数据特征提取、匹配方法及装置

文献类型：专利

专利类型：发明专利

是否失效：否

是否授权：否

申请号：CN202011335129.X

申请日：20201125

发明人：吕凯辉

申请人：电信科学技术第十研究所有限公司

申请人地址：710061 陕西省西安市雁塔西路6号

公开日：20240329

公开号：CN112395292B

代理人：党娟娟;郭永丽

代理机构：广州三环专利商标代理有限公司

语　　种：中文

摘　　要：本发明公开了一种数据特征提取、匹配方法及装置，涉及通信技术领域。该方法包括：利用图形化界面配置，将结构化数据写入原始数据库表中；利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载目标库表；从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要；基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

主权项：1.一种数据特征提取、匹配方法，其特征在于，包括：利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；对具有相同来源的所述规范数据通过标识进行关联；对具有不同来源的所述规范数据和所述非结构数据，基于人工规则和机器学习的方式，确定所述规范数据和所述非结构数据的ID，根据ID将所述规范数据和所述非结构数据进行关联；将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联，将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联；将匹配关联的所述规范数据与图片库包括的图片进行关联，通过ID和图片名称之间的关联关系进行匹配，将具有关联关系的匹配结果打包为zip文件。

关键词：非结构化数据文件内容库表结构化数据结构文件目标库图片库数据特征提取通信技术领域原始数据库表非结构数据图形化界面编码转换关联关系匹配结果数据加载大平台时间戳加载去重打包匹配清洗写入关联图片配置

IPC专利分类号：G06F16/22;G06F16/25;G06F16/182;G06F16/51

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

专利详细信息

一种数据特征提取、匹配方法及装置

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：