登录    注册    忘记密码

期刊文章详细信息

基于网络爬虫的网页大数据抓取方法仿真    

Web Crawler-Based Simulation of Large Data Grabbing Method for Web Pages

  

文献类型:期刊文章

作  者:谢蓉蓉[1] 徐慧[2] 郑帅位[3] 马刚[1]

XIE Rong-rong;XU-Hui;ZHENG-Shuai-wei;MA-Gang(School of Computer Science,Xi'an Shiyou University,Xi'an Shanxi 710065,China;School of Shiyou Engineering,Xi’an Shiyou University,Xi’an Shanxi 710065,China;Information Centre,Xi’an Shiyou University,Xi’an,Shanxi 710065,China)

机构地区:[1]西安石油大学计算机学院,陕西西安710065 [2]西安石油大学石油工程学院,陕西西安710065 [3]西安石油大学信息中心,陕西西安710065

出  处:《计算机仿真》

年  份:2021

卷  号:38

期  号:6

起止页码:439-443

语  种:中文

收录情况:BDHX、BDHX2020、JST、ZGKJHX、核心刊

摘  要:为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法。首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略。经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务。通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性。

关 键 词:大数据抓取  网络爬虫 特征  相空间 关联维  

分 类 号:TP309.2]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心