登录    注册    忘记密码

期刊文章详细信息

基于树结构的Web信息抽取    

Extracting Web Data Using Tree Structure

  

文献类型:期刊文章

作  者:周登[1] 戴玉刚[1] 付涛[1]

机构地区:[1]西北民族大学中国民族信息技术研究院

出  处:《计算机技术与发展》

基  金:国家科技计划资助项目(2005DIB6J174)

年  份:2009

卷  号:19

期  号:9

起止页码:38-41

语  种:中文

收录情况:JST、RCCSE、ZGKJHX、普通刊

摘  要:信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析。文中提出了一种先将HTML转化为XML形式,再提取信息的方法。XML是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度。

关 键 词:WEB 信息提取 XML数据文档  树结构

分 类 号:TP311]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心