登录    注册    忘记密码

期刊文章详细信息

基于Scrapy-Redis分布式数据采集平台的设计与实现    

Design and implementation of distributed data collection system based on Scrapy-Redis

  

文献类型:期刊文章

作  者:严慧[1] 彭绪富[1,2] 朱小婉[1,3] 熊旭辉[1] 董叶豪[1]

YAN Hui;PENG Xu-fu;ZHU Xiao-wan;XIONG Xu-hui;DONG Ye-hao(College of Computer Science and Technology,Hubei Normal University,Huangshi 435002,China;College of Arts and Science,Hubei Normal University,Huangshi 435002,China;College of Educational Science,Hubei Normal University,Huangshi 435002,China)

机构地区:[1]湖北师范大学计算机科学与技术学院,湖北黄石435002 [2]湖北师范大学文理学院,湖北黄石435002 [3]湖北师范大学教育科学学院,湖北黄石435002

出  处:《湖北师范大学学报(自然科学版)》

基  金:湖北省高等学校优秀中青年科技创新团队计划项目(T201430)

年  份:2019

卷  号:39

期  号:1

起止页码:19-25

语  种:中文

收录情况:普通刊

摘  要:针对微博平台大数据的采集、挖掘、分析等热点问题,深入介绍并分析了采集平台的相关理论技术,通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究,设计并实现了一种基于分布式的微博数据采集平台;给出了主从模式系统架构;达到了用户只需根据需要输入待爬取微博页面的ID,并选择要采集的数据类型,即可获得所需数据的目的。经测试,系统搭建成本低,爬取性能高,可运用于微博数据的舆情分析和数据调研等研究方面的基础数据采集。

关 键 词:微博平台  数据采集 分布式 网络爬虫 Scrapy-Redis  

分 类 号:TP302]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心