期刊文章详细信息
Spark框架优化的大规模谱聚类并行算法
Spark framework based optimized large-scale spectral clustering parallel algorithm
文献类型:期刊文章
CUI Yixin;CHEN Xiaodong(Network and Information Center,Taiyuan Institute qf Technology,Taiyuan Shanxi 030008,China)
机构地区:[1]太原工业学院网络与信息中心
年 份:2020
卷 号:40
期 号:1
起止页码:168-172
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化,降低存储需求;最后,采用近似特征向量计算来进一步减少计算量。不同测试数据集上的实验结果表明:随着测试数据集的规模增加,所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长,增长缓慢,其近似特征向量计算与精确特征向量计算取得相近的聚类效果,并且算法在大规模数据集上表现出良好的可扩展性。在获得较好的谱聚类性能的基础上,改进算法提高了运行效率,有效缓解了谱聚类的计算耗时及无法聚类问题。
关 键 词:大规模谱聚类 相似矩阵稀疏化 单向循环迭代 近似特征向量 分布式Spark并行计算
分 类 号:TP181] TP311.13]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...