登录    注册    忘记密码

期刊文章详细信息

基于Linux的python多线程爬虫程序设计    

Python Multithreading Web Crawler Program Based on Linux

  

文献类型:期刊文章

作  者:李俊丽[1]

机构地区:[1]晋中学院信息技术与工程学院,晋中030619

出  处:《计算机与数字工程》

年  份:2015

卷  号:43

期  号:5

起止页码:861-863

语  种:中文

收录情况:ZGKJHX、普通刊

摘  要:微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。

关 键 词:微博网页  网络爬虫 模拟登录  

分 类 号:TP301]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心