期刊文章详细信息
文献类型:期刊文章
机构地区:[1]东南大学成贤学院计算机工程系,江苏南京210000 [2]东南大学仪器科学与工程学院,江苏南京210000
基 金:江苏高校哲学社会科学基金(2016SJD880186);江苏省现代教育技术研究课题(2016-R-46509);"十二五"国家科技支撑计划(2013BAJ05B02-2)
年 份:2018
卷 号:40
期 号:1
起止页码:155-158
语 种:中文
收录情况:BDHX、BDHX2017、CSCD、CSCD_E2017_2018、INSPEC、JST、ZGKJHX、核心刊
摘 要:为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的K-means算法对其进行聚类分析,查准/全率较传统的K-means算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。
关 键 词:微博 聚类中心 K-MEANS聚类算法 密度
分 类 号:TP301]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...