期刊文章详细信息
文献类型:期刊文章
CHEN Hao;ZHOU Chuan-sheng(Network and Information Center,Shenyang Normal University,Shenyang 110034,China)
机构地区:[1]沈阳师范大学网络信息中心,辽宁沈阳110034
基 金:2020年辽宁省一流学科教育学建设项目(SNUJYX2020040402)。
年 份:2021
卷 号:17
期 号:13
起止页码:3-5
语 种:中文
收录情况:普通刊
摘 要:针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应用到不同的多级页面信息类型网站,为基于Web的数据分析提供策略采集和分析支持。
关 键 词:大数据 网络爬虫 scrapy框架 数据采集
分 类 号:TP3[计算机类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...