期刊文章详细信息
文献类型:期刊文章
机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006
基 金:教育部高校博士学科点科研基金项目(20040285016);江苏省高技术研究基金项目(BG2005019)。
年 份:2006
卷 号:27
期 号:17
起止页码:3154-3158
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。
关 键 词:DEEP WEB DEEP WEB爬虫 查询选择 查询效能 适应性爬行算法
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...