期刊文章详细信息
文献类型:期刊文章
机构地区:[1]晋中学院信息技术与工程学院,晋中030619
年 份:2015
卷 号:43
期 号:5
起止页码:861-863
语 种:中文
收录情况:ZGKJHX、普通刊
摘 要:微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。
关 键 词:微博网页 网络爬虫 模拟登录
分 类 号:TP301]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...