期刊文章详细信息

基于Linux的python多线程爬虫程序设计
Python Multithreading Web Crawler Program Based on Linux

文献类型：期刊文章

作　　者：李俊丽[1]

机构地区：[1]晋中学院信息技术与工程学院,晋中030619

出　　处：《计算机与数字工程》

年　　份：2015

卷　　号：43

期　　号：5

起止页码：861-863

语　　种：中文

收录情况：ZGKJHX、普通刊

摘　　要：微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。

关键词：微博网页网络爬虫模拟登录

分类号：TP301]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于Linux的python多线程爬虫程序设计
Python Multithreading Web Crawler Program Based on Linux

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于Linux的python多线程爬虫程序设计 Python Multithreading Web Crawler Program Based on Linux

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于Linux的python多线程爬虫程序设计
Python Multithreading Web Crawler Program Based on Linux