期刊文章详细信息
基于Scrapy的分布式数据采集与分析——以知乎话题为例
Distributed crawling and data analysis based on scrapy ——taking ZhiHu topic for example
文献类型:期刊文章
LI Guang-min;LI Ping;WANG Cong(College of Computer Science and Technology, Hubei Normal University, Huangshi, 435002, China;College of Math and Statistics, Huanggang Normal University, Huanggang, 438000, China)
机构地区:[1]湖北师范大学计算机科学与技术学院,湖北黄石435002 [2]黄冈师范学院数学与统计学院,湖北黄冈438000
基 金:湖北省教育厅科研计划重点项目(D20172502)
年 份:2019
卷 号:39
期 号:3
起止页码:1-7
语 种:中文
收录情况:普通刊
摘 要:随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题。基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析。结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系。该方法可推广应用于自动模式识别、网络舆情预测等大数据应用领域。
关 键 词:Scrapy 分布式 数据分析 知乎
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...