期刊文章详细信息
D-EEM:一种基于DOM树的Deep Web实体抽取机制 ( EI收录)
D-EEM:A DOM-Tree Based Entity Extraction Mechanism for Deep Web
文献类型:期刊文章
机构地区:[1]东北大学信息科学与工程学院,沈阳110004 [2]东软集团商用软件事业部,沈阳110179
基 金:国家自然科学基金项目(60673139;60973021);国家"八六三"高技术研究发展计划基金项目(2008AA01Z146);中央高校基本科研业务费专项基金项目(NO90304005)~~
年 份:2010
卷 号:47
期 号:5
起止页码:858-865
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.
关 键 词:实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
分 类 号:TP311.13]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...