专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201110430528.9
申 请 日:20111220
申 请 人:中国科学院声学研究所 无锡中科智能信息处理研发中心有限公司
申请人地址:100190 北京市海淀区北四环西路21号
公 开 日:20160120
公 开 号:CN103176976B
代 理 人:杨小蓉;高宇
代理机构:11318 北京法思腾知识产权代理有限公司
语 种:中文
摘 要:一种基于数据压缩Apriori算法的关联规则挖掘方法,包括步骤:判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时,生成数据库项与该数据项数量的映射表DB_Map_Table;将该映射表DB_Map_Table中的所有健值对<key,value>按照key的大小升序排列;使用Apriori算法生成I(I>2)项候选集时,判断将要合并的两个频繁集中不同的项所组成的二项集是否为2项频繁集的子集,如果是,则将将要合并的两个频繁集的合集加入候选集。本发明的效果在于,减小了原有事务数据库的大小,减少了数据库的扫描次数,减少了算法运行过程中候选集的生成,从而在保证算法正确的同时有效地提高了算法的速度和效率。
主 权 项:1.一种基于数据压缩Apriori算法的关联规则挖掘方法,所述方法包括步骤:判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时,生成数据库项与该数据项数量的映射表DB_Map_Table:设置长度为m的bitmask=<0000...0>;扫描数据库,顺序读取数据库的每一项,对读取的数据库的项,Tk={Ix,Iy,...Iz}调用f(X),将bitmask=<0000...0>对应的x,y,...z位设置为1,生成Tk对应的bitvector=<01x....1y..1z0>;bitvector=<01x....1y..1z0>转化为对应的十进制键值keyk;调用count=H(keyk),若返回的结果为0,则H(keyk)=1,若返回值大于0,H(keyk)=count+1;当扫描完整个数据库后,对DB_Map_Tbale按照key的大小按升序排序,至此生成DB_Map_Tbale的过程结束;将该映射表DB_Map_Table中的所有健值对<key,value>按key的大小升序排列,即KEY={key1,key2,...keym},key1<key2<...<keym;利用Apriori算法从DB_Map_Table表的第
关 键 词:候选集 生成 映射表 两个 算法 频繁 关联规则挖掘 判断数据库 事务数据库 数据项数量 记录条数 扫描次数 升序排列 数据库项 数据库中 数据压缩 算法运行 合并 数据项 速度和 组合数 合集 减小 项集 一种 值对 子集 数据库 减少 大于 事物 判断 加入 正确 集中 组成 保证 有效
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...