登录    注册    忘记密码

期刊文章详细信息

基于改进遗传算法的聚焦爬虫设计    

Design of a Focused Crawler Based on the Improved Genetic Algorithm

  

文献类型:期刊文章

作  者:范会联[1] 李献礼[2] 曾广朴[1]

机构地区:[1]长江师范学院数学与计算机学院,重庆408100 [2]长江师范学院网络信息中心,重庆408100

出  处:《计算机工程与科学》

基  金:重庆市教委科学技术研究项目(KJ091309)

年  份:2010

卷  号:32

期  号:5

起止页码:126-129

语  种:中文

收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、ZGKJHX、核心刊

摘  要:本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。

关 键 词:聚焦爬虫 爬行控制器  主题相关度 数据抽取

分 类 号:TP391.3]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心