登录    注册    忘记密码

期刊文章详细信息

基于python的网络爬虫研究    

  

文献类型:期刊文章

作  者:郭锋锋[1]

机构地区:[1]宿州职业技术学院计算机信息系,安徽宿州234000

出  处:《佳木斯大学学报(自然科学版)》

基  金:安徽高校自然科学研究项目(KJ2019A1060)。

年  份:2020

卷  号:38

期  号:2

起止页码:62-65

语  种:中文

收录情况:CAS、CSA-PROQEUST、PROQUEST、普通刊

摘  要:大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快。python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程。本文对几种爬虫技术进行了比较,提出了一种新的基于scrapy开源框架的改进爬虫算法,在主题相关性分析中采用基于贝叶斯分类器的算法,在解析网页中结合dom树的分块算法,对scrapy框架下的url过滤和去重进行优化,对特定目标中相关的网页内容进行了爬取,经过实验表明,查准率有了提高,耗时缩短了,总体来说,改进后的算法优于之前的算法。

关 键 词:改进爬虫算法  贝叶斯分类 scrapy开源框架  PYTHON

分 类 号:TP311.11]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心