登录    注册    忘记密码

期刊文章详细信息

基于维基百科和网页相似度分析的主题爬行策略    

Topic crawling strategies based on Wikipedia and analysis of web-page similarity

  

文献类型:期刊文章

作  者:栾霞[1] 赵晓楠[2]

机构地区:[1]中国人民解放军第三二三医院网络中心 [2]中国人民解放军68303部队

出  处:《现代电子技术》

年  份:2014

卷  号:37

期  号:20

起止页码:35-37

语  种:中文

收录情况:IC、RCCSE、ZGKJHX、普通刊

摘  要:针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜索结果与主题相关度明显高于传统爬虫,爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值,尤其在转基因生物领域中,该爬虫中有一定的创新性。

关 键 词:维基百科 文本相关性  链接分析 相似度计算

分 类 号:TN911-34] TP391.4]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心