期刊文章详细信息
含有位置坐标树的Web页面分析和内容提取框架 ( EI收录)
Framework of web page analysis and content extraction with coordinate trees
文献类型:期刊文章
机构地区:[1]北京电子科技学院信息安全与保密重点实验室,北京100070 [2]北京邮电大学电信工程学院,北京100876 [3]燕山大学信息工程学院,秦皇岛066004
基 金:国家自然科学基金资助项目(60472082);北京电子科技学院重点实验室资助项目(WEBF)
年 份:2005
卷 号:45
期 号:S1
起止页码:1767-1771
语 种:中文
收录情况:AJ、AMR、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。
关 键 词:坐标树 页面结构分析 内容抽取 DOM 启发式规则
分 类 号:TP393.092]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...