期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北华航天工业学院计算机与遥感信息技术学院,河北廊坊065000
年 份:2017
卷 号:19
期 号:8
起止页码:8-11
语 种:中文
收录情况:普通刊
摘 要:随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。
关 键 词:大数据 新浪微博 数据挖掘 Python爬虫 模拟登陆
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...