期刊文章详细信息
文献类型:期刊文章
机构地区:[1]西北民族大学中国民族信息技术研究院
基 金:国家科技计划资助项目(2005DIB6J174)
年 份:2009
卷 号:19
期 号:9
起止页码:38-41
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析。文中提出了一种先将HTML转化为XML形式,再提取信息的方法。XML是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度。
关 键 词:WEB 信息提取 XML数据文档 树结构
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...