登录    注册    忘记密码

专利详细信息

一种通用文本挖掘方法和系统       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN201510135053.9

申 请 日:20150325

发 明 人:孟涛 李佳静

申 请 人:南京网感至察信息科技有限公司

申请人地址:210014 江苏省南京市秦淮区光华路129-3号南京白下高新技术产业园区A1区5层511室

公 开 日:20191022

公 开 号:CN106156035B

代 理 人:马佑平;黄锦阳

代理机构:11442 北京博雅睿泉专利代理事务所(特殊普通合伙)

语  种:中文

摘  要:本发明公开了一种通用文本挖掘的方法,其中包括:步骤1,运行网络爬虫,加载挖掘范围内的挖掘对象,步骤2,对所述挖掘对象进行实际文本提取,得到实际文本,步骤3,将所述实际文本形成概念标注图,步骤4,根据与挖掘目标对应的所述概念和概念之间的关系,将所述概念和关系编译形成字节码,进而形成指令图,步骤5,将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果。本发明的通用文本挖掘方法能够对挖掘目标、挖掘范围和挖掘方法等进行形式化的描述,达到在不同领域进行文本检索和挖掘的效果。

主 权 项:1.一种通用文本挖掘方法,其特征在于,包括:步骤1,定义挖掘范围,运行网络爬虫,加载所述挖掘范围内的挖掘对象;步骤2,对所述挖掘对象进行实际文本提取,得到实际文本;步骤3,将所述实际文本形成概念标注图,选定挖掘方法;步骤4,定义与挖掘目标对应的概念以及定义概念之间的关系;根据与所述挖掘目标对应的所述概念和概念之间的关系,将所述概念和关系编译形成字节码,进而形成指令图;步骤5,将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果;其中,所述概念标注图是指在符合所述挖掘目标的字句上标注上与之相应的概念和关系;所述指令图是根据所述字节码中的目标依赖关系生成的;所述概念之间的所述关系包括:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n,n为自然数;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。

关 键 词:挖掘  概念标注  实际文本  指令图  文本挖掘 爬虫 内容形成  文本检索 运行网络  通用  字节码 加载  匹配  编译  

IPC专利分类号:G06F16/26(20190101)

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心