期刊文章详细信息

微博数据通用抓取算法
Universal Crawling Algorithm for Microblogging Data

文献类型：期刊文章

作　　者：卢体广[1] 刘新[1] 刘任任[1]

机构地区：[1]湘潭大学信息工程学院智能计算与信息处理教育部重点实验室,湖南湘潭411105

出　　处：《计算机工程》

基　　金：湖南省自然科学基金资助项目(12JJ3066);湖南省高校科技成果产业化培育基金资助项目(11CY018);湖南省重点学科基金资助项目

年　　份：2014

卷　　号：40

期　　号：5

起止页码：12-16

语　　种：中文

收录情况：AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊

摘　　要：目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。

关键词：微博数据模拟登录用户网络用户影响力网络舆情优先队列

分类号：TP301.6]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

微博数据通用抓取算法
Universal Crawling Algorithm for Microblogging Data

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

微博数据通用抓取算法 Universal Crawling Algorithm for Microblogging Data

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

微博数据通用抓取算法
Universal Crawling Algorithm for Microblogging Data