登录    注册    忘记密码

期刊文章详细信息

微博数据通用抓取算法    

Universal Crawling Algorithm for Microblogging Data

  

文献类型:期刊文章

作  者:卢体广[1] 刘新[1] 刘任任[1]

机构地区:[1]湘潭大学信息工程学院智能计算与信息处理教育部重点实验室,湖南湘潭411105

出  处:《计算机工程》

基  金:湖南省自然科学基金资助项目(12JJ3066);湖南省高校科技成果产业化培育基金资助项目(11CY018);湖南省重点学科基金资助项目

年  份:2014

卷  号:40

期  号:5

起止页码:12-16

语  种:中文

收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊

摘  要:目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。

关 键 词:微博数据  模拟登录  用户网络 用户影响力  网络舆情 优先队列

分 类 号:TP301.6]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心