期刊文章详细信息
基于数据集稀疏度的频繁项集挖掘算法性能分析
Performance analysis of frequent itemset mining algorithms based on sparseness of dataset
文献类型:期刊文章
XIAO Wen;HU Juan(Department of Electrical and Information Engineering,Hohai University Wentian College,Maanshan Anhui 243031,China)
机构地区:[1]河海大学文天学院电气信息工程系,安徽马鞍山243031
基 金:安徽省高校自然科学研究项目(KJ2016A623)~~
年 份:2018
卷 号:38
期 号:4
起止页码:995-1000
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2017_2018、IC、INSPEC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:频繁项集挖掘(FIM)是最基础的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响。数据集稀疏度是体现数据集本质特征的属性之一,不同类型的FIM算法对数据集稀疏度的可扩展性有着很大的不同。针对如何量化度量数据集稀疏度及稀疏度对不同类型FIM算法性能影响等问题,首先回顾并讨论了已有的度量方法,然后提出两种新的量化度量数据集稀疏度的方法(基于事务差异度的度量方法和基于FP-Tree的度量方法)。这两种度量方法均考虑了FIM任务背景下最小支持度对数据集稀疏度的影响,反映的是事务频繁项集之间的差异度。最后通过实验验证了不同类型FIM算法对数据集稀疏度的可扩展性。实验结果表明,数据集稀疏度与最小支持度成反比,基于垂直格式的FIM算法在三类典型FIM算法中具有最佳的稀疏度可扩展性。
关 键 词:数据挖掘 频繁项集挖掘 稀疏度 可扩展性
分 类 号:TP311.5]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...