登录    注册    忘记密码

期刊文章详细信息

含有位置坐标树的Web页面分析和内容提取框架  ( EI收录)  

Framework of web page analysis and content extraction with coordinate trees

  

文献类型:期刊文章

作  者:封化民[1] 刘飚[2] 刘艳敏[3] 方勇[1] 宋国森[3]

机构地区:[1]北京电子科技学院信息安全与保密重点实验室,北京100070 [2]北京邮电大学电信工程学院,北京100876 [3]燕山大学信息工程学院,秦皇岛066004

出  处:《清华大学学报(自然科学版)》

基  金:国家自然科学基金资助项目(60472082);北京电子科技学院重点实验室资助项目(WEBF)

年  份:2005

卷  号:45

期  号:S1

起止页码:1767-1771

语  种:中文

收录情况:AJ、AMR、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。

关 键 词:坐标树  页面结构分析  内容抽取 DOM 启发式规则

分 类 号:TP393.092]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心