期刊文章详细信息
文献类型:期刊文章
XU Hong-Long;TANG Song;MAO Rui;SHEN Jing;LIU Gang;CHEN Guo-Liang(School of Mathematics and Big Data,Foshan University,Foshan,Guangdong528000;Guangdong Province Key Laboratory of Popular High Performance Computers,College of Computer Science and Software Engineering,Shenzhen University,Shenzhen,Guangdong518060;College of Chemistry,Nankai University,Tianjin300071)
机构地区:[1]佛山科学技术学院数学与大数据学院,广东佛山528000 [2]深圳大学计算机与软件学院广东省普及型高性能计算机重点实验室,广东深圳518060 [3]南开大学化学学院,天津300071
基 金:国家“八六三”高技术研究发展计划项目基金(2015AA015305);国家自然科学基金委-广东联合项目(U1301252,U1501254);广东省重点实验室建设情况考评项目(2017B030314073);广东省自然科学基金(2015A030313636);深圳市科技计划项目(CXZZ20140418182638764)资助~~
年 份:2017
卷 号:40
期 号:12
起止页码:2839-2855
语 种:中文
收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:大数据的价值实现,归根到底还是依赖于数据挖掘技术.而在很多领域中,海量数据的非常规模式往往更具分析价值.离群检测,也叫异常检测,是用于挖掘海量数据中非常规模式的一项关键技术,广泛应用于网络入侵检测、公共卫生、医疗监控等领域.基于索引的离群检测算法通常具有较高的检测速度,然而现有的大多数基于索引的检测算法并非完全基于距离,导致通用性降低.较高的抽象能力使得度量空间具有比多维空间更广泛的适用范围,在其基础上设计的算法具有更高的通用性.而最新的度量空间基于索引的离群检测算法iORCA算法通过随机选取支撑点,基于数据到单支撑点的距离建立索引,并应用终止规则(Stopping rule)以期提前结束离群检测并得到正确的结果,多数情况下该机制起到加快检测速度的重要作用.然而iORCA算法未提供支撑点选取算法导致检测结果不稳定,且未能充分利用距离三角不等性减少距离计算次数.针对这些问题,文中指出基于距离的离群点定义应结合使用完全基于距离的离群检测算法,以确保算法的通用性,由此提出了度量空间离群检测的概念.在此基础上明确了支撑点选取的两大目标,即边缘支撑点和密集支撑点,并提出基于多种支撑点的度量空间离群检测算法VPOD.考虑到两个支撑点选取目标难以同时达到,VPOD算法分别予以选取,在近似的密集区域选取支撑点,即密集支撑点,对应使用终止规则,然后用FFT(Farthest-First Traversal)算法另选取若干支撑点,即边缘支撑点,与数据集计算距离而形成支撑点空间,利用距离三角不等性,使距离计算次数显著减少,从而提高检测速度.实验表明该算法能在可接受的时间范围内建立索引,并能高效检测离群点,加速比达2.05,最高达3.54,距离计算次数平均减少51.14%,最高达89.46%,同时保持对多种常见的基于距离的离群点定
关 键 词:离群检测 度量空间 索引 支撑点选取 三角不等性
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...