期刊文章详细信息
文献类型:期刊文章
Yuan Ye Li chen Tian Lihua(Software Engineering School, Xi' an Jiaotong University, Xi' an 710049, Shaanxi, China Sina Corporation, Beijing 100000, China)
机构地区:[1]西安交通大学软件学院,陕西西安710049 [2]新浪网技术(中国)有限公司,北京100000
基 金:国家自然科学基金项目(61403302)
年 份:2017
卷 号:34
期 号:3
起止页码:31-37
语 种:中文
收录情况:CSA、CSA-PROQEUST、IC、JST、ZGKJHX、普通刊
摘 要:从海量数据下的社会化网络中识别出各个领域下产出高质量内容的具有一定影响力的专家,进行具有针对性的广告推荐与决策支持,已经成为微博数据挖掘亟待解决的问题之一。从微博的用户特征和行为特征出发,确定了采集博文的规则与互动量计算公式,并应用PageRank算法对微博用户影响力计算时存在的数据陈旧性和主题不相关性的问题进行了改进,最后分别基于MapReduce和Spark的并行计算框架对算法进行了实现。实验结果表明,该挖掘方法具有较好的准确性,在Spark并行计算框架下表现出较高的性能,尤其适合大规模数据集的场景。
关 键 词:微博 用户影响力 PAGERANK Spark大数据
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...