期刊文章详细信息
一种基于日志信息和CNN-text的软件系统异常检测方法 ( EI收录)
A Method for Software System Anomaly Detection Based on Log Information and CNN-Text
文献类型:期刊文章
MEI Yu-Dong;CHEN Xu;SUN Yu-Zhong;NIU Yi-Xiang;XIAO Li;WANG Hai-Rong;FENG Bai-Ming(State Key Laboratory of Computer Architecture,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080;University of Chinese Academy of Sciences,Beijing 101400;North Minzu University,School of Computer Science and Engineering,Yinchuan 750021;Northwest Normal University,School of Computer Science and Engineering,Lanzhou 730070)
机构地区:[1]中国科学院计算技术研究所计算机体系结构国家重点实验室,北京100080 [2]中国科学院大学,北京101400 [3]北方民族大学计算机科学与工程学院,银川750021 [4]西北师范大学计算机科学与工程学院,兰州730070
基 金:面向云计算的网络化操作系统项目(2016YFB1000505);国家自然科学基金委员会(NSFC)-广东省人民政府联合基金超级计算科学应用研究专项计划(第二期)(U1611261);宁夏自治区重点研发计划(引才专项)(2018BEB04002)资助。
年 份:2020
卷 号:43
期 号:2
起止页码:366-380
语 种:中文
收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD2019_2020、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-B
关 键 词:系统日志分析 系统异常预警 不均衡数据 机器学习 深度学习 CNN-text
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...