期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国矿业大学(北京)机电与信息工程学院,北京100083 [2]南京网感至察信息科技有限公司,南京210014 [3]北京大学信息科学技术学院,北京100871
基 金:南京市321领军型科技创业人才计划基金项目2013年第2批;中央高校基本科研业务费专项资金项目(2009QJ15);国家"八六三"高技术研究发展计划基金项目(2013AA064303)
年 份:2015
卷 号:52
期 号:3
起止页码:553-560
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD2015_2016、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:实现了一种通用高效的文本挖掘编程语言,包括其编译器、运行虚拟机和图形开发环境.其工作方式是用户通过编写该语言的代码以定制抽取目标和抽取手段,然后将用户代码编译成字节码并进行优化,再将其与输入文本语义结构做匹配.该语言具有如下特点:1)提供了一种描述文本挖掘的范围、目标和手段的形式化方法,从而能通过编写该语言的代码来在不同应用领域做声明式文本挖掘;2)运行虚拟机以信息抽取技术为核心,高效地实现了多种常用文本挖掘技术,并将其组成一个文本分析流水线;3)通过一系列编译优化技术使得大量匹配指令能够充分并发执行,从而解决了该语言在处理海量规则和海量数据上的执行效率问题.实用案例说明了TML语言的描述能力以及它的实际应用情况.
关 键 词:文本挖掘 信息抽取 编程语言 编译器 虚拟机
分 类 号:TP391.1] TP18[计算机类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...