期刊文章详细信息

基于网络爬虫的网页大数据抓取方法仿真
Web Crawler-Based Simulation of Large Data Grabbing Method for Web Pages

文献类型：期刊文章

作　　者：谢蓉蓉[1] 徐慧[2] 郑帅位[3] 马刚[1]

XIE Rong-rong;XU-Hui;ZHENG-Shuai-wei;MA-Gang(School of Computer Science,Xi'an Shiyou University,Xi'an Shanxi 710065,China;School of Shiyou Engineering,Xi’an Shiyou University,Xi’an Shanxi 710065,China;Information Centre,Xi’an Shiyou University,Xi’an,Shanxi 710065,China)

机构地区：[1]西安石油大学计算机学院,陕西西安710065 [2]西安石油大学石油工程学院,陕西西安710065 [3]西安石油大学信息中心,陕西西安710065

出　　处：《计算机仿真》

年　　份：2021

卷　　号：38

期　　号：6

起止页码：439-443

语　　种：中文

收录情况：BDHX、BDHX2020、JST、ZGKJHX、核心刊

摘　　要：为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务。通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性。

关键词：大数据抓取网络爬虫特征相空间关联维

分类号：TP309.2]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于网络爬虫的网页大数据抓取方法仿真
Web Crawler-Based Simulation of Large Data Grabbing Method for Web Pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于网络爬虫的网页大数据抓取方法仿真 Web Crawler-Based Simulation of Large Data Grabbing Method for Web Pages

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于网络爬虫的网页大数据抓取方法仿真
Web Crawler-Based Simulation of Large Data Grabbing Method for Web Pages