登录    注册    忘记密码

期刊文章详细信息

基于数据集稀疏度的频繁项集挖掘算法性能分析    

Performance analysis of frequent itemset mining algorithms based on sparseness of dataset

  

文献类型:期刊文章

作  者:肖文[1] 胡娟[1]

XIAO Wen;HU Juan(Department of Electrical and Information Engineering,Hohai University Wentian College,Maanshan Anhui 243031,China)

机构地区:[1]河海大学文天学院电气信息工程系,安徽马鞍山243031

出  处:《计算机应用》

基  金:安徽省高校自然科学研究项目(KJ2016A623)~~

年  份:2018

卷  号:38

期  号:4

起止页码:995-1000

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:频繁项集挖掘(FIM)是最基础的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。数据集稀疏度是体现数据集本质特征的属性之一,不同类型的FIM算法对数据集稀疏度的可扩展性有着很大的不同。针对如何量化度量数据集稀疏度及稀疏度对不同类型FIM算法性能影响等问题,首先回顾并讨论了已有的度量方法,然后提出两种新的量化度量数据集稀疏度的方法(基于事务差异度的度量方法和基于FP-Tree的度量方法)。这两种度量方法均考虑了FIM任务背景下最小支持度对数据集稀疏度的影响,反映的是事务频繁项集之间的差异度。最后通过实验验证了不同类型FIM算法对数据集稀疏度的可扩展性。实验结果表明,数据集稀疏度与最小支持度成反比,基于垂直格式的FIM算法在三类典型FIM算法中具有最佳的稀疏度可扩展性。

关 键 词:数据挖掘 频繁项集挖掘 稀疏度 可扩展性

分 类 号:TP311.5]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心