期刊文章详细信息
文献类型:期刊文章
机构地区:[1]长江师范学院数学与计算机学院,重庆408100 [2]长江师范学院网络信息中心,重庆408100
基 金:重庆市教委科学技术研究项目(KJ091309)
年 份:2010
卷 号:32
期 号:5
起止页码:126-129
语 种:中文
收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、ZGKJHX、核心刊
摘 要:本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。
关 键 词:聚焦爬虫 爬行控制器 主题相关度 数据抽取
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...