期刊文章详细信息
文献类型:期刊文章
机构地区:[1]山东师范大学信息科学与工程学院,济南250014 [2]山东省分布式计算机软件新技术重点实验室(山东师范大学),济南250014
基 金:国家自然科学基金资助项目(90612003;61572301)~~
年 份:2016
卷 号:36
期 号:8
起止页码:2202-2206
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA、CSA-PROQEUST、CSCD、CSCD_E2015_2016、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。
关 键 词:大数据 高效用模式挖掘 聚类 并行计算 HADOOP
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...