期刊文章详细信息
文献类型:期刊文章
机构地区:[1]宿州职业技术学院计算机信息系,安徽宿州234000
基 金:安徽高校自然科学研究项目(KJ2019A1060)。
年 份:2020
卷 号:38
期 号:2
起止页码:62-65
语 种:中文
收录情况:CAS、CSA-PROQEUST、PROQUEST、普通刊
摘 要:大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快。python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程。本文对几种爬虫技术进行了比较,提出了一种新的基于scrapy开源框架的改进爬虫算法,在主题相关性分析中采用基于贝叶斯分类器的算法,在解析网页中结合dom树的分块算法,对scrapy框架下的url过滤和去重进行优化,对特定目标中相关的网页内容进行了爬取,经过实验表明,查准率有了提高,耗时缩短了,总体来说,改进后的算法优于之前的算法。
关 键 词:改进爬虫算法 贝叶斯分类 scrapy开源框架 PYTHON
分 类 号:TP311.11]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...