基于决策树算法分析恶意网络攻击和入侵

摘　要：随着网络技术的飞速发展,网络安全问题日益成为我们越来越担心的问题。在系统自带的防火墙之下，以及各大杀毒软件推出的防火墙技术，都还是难以确保网络的安全性。因此入侵检测系统变得日益受到人们观注。传统的基于规则的入侵检测，不仅系统资源占量大,而且面对复杂的网络系统和层出不穷的黑客攻击技术,有着明显的时间和空间上的局限性,因此传统的检测技术极易造成漏报和虚警。为了提高检测效率和检测准确率,本文提出了一种基于决策树分类算法的入侵检测系统。通过实验证明该入侵检测系具有较高的检测效率和检测准确率。

关键词：入侵检测；决策树；KDD99；检测率；误报率
　　入侵检测是指对恶意破坏计算机和网路资源的行为进行检测并产生反应的过程，是当前网络完全研究领域的热点课题之一。从 70 年代开始，人们相继采用了多种数学模型和方法来建立入侵检测系统。采用决策树的入侵检测就是其中的一种建模方法，该方法可以较好的解决
对攻击特征描述的问题，从训练数据中提取最能反映攻击的属性，并通过比较各个属性的信息增益，对属性进行分类，并生成决策规则用于入侵检测，采用决策树的方法进行入侵检测具有较好的检测率和较低的误报率。
一、决策树算法原理及C4.5算法
　　决策树算法是一种逼近离散函数值的方法。决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，之后衍生的C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。决策树构造的输入是一组带有类别标记的例子，构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断，如形式为a＝aj的逻辑判断，其中a是属性，aj是该属性的所有取值：树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性，边是该属性的所有取值，有几个属性值就有几条边。树的叶子节点都是类别标记。寻找一棵最优决策树，主要应解决以下3个最优化问题：①生成最少数目的叶子节点；②生成的每个叶子节点的深度最小；③生成的决策树叶子节点最少且每个叶子节点的深度最小。决策树一般都是自上而下的来生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。决策树算法的优点如下：（1）分类精度高；（2）成的模式简单；（3）对噪声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一，在数据挖掘中受到研究者的广泛关注。
　　C4.5算法是构造决策树分类器的一种算法，它是 ID3 算法的扩展该算法从树的根节点处的所有训练样本开始,选取一个属性来区分这些样本对属性的每一个值产生一个分支，分支属性值的相应样本子集被移到新生成的子节点上，这个算法递归地应用于每个子节点上,直到节点的所有样本都分区到某个类中，到达决策树的叶节点的每条路径表示一个分类规则这样自顶向下的决策树的生成算法的关键性决策是对节点属性值的选择选择不同的属性值会使划分出来的记录子集不同，影响决策树生长的快慢以及决策树结构的好坏，从而导致找到的规则信息的优劣。
二、决策树算法在网络攻击和入侵中的表现
　　决策树很擅长处理非数值型数据，这与神经网络只能处理数值型数据比起来，就免去了很多数据预处理工作。甚至有些决策树算法专为处理非数值型数据而设计，因此当采用此种方法建立决策树同时又要处理数值型数据时，反而要做把数值型数据映射到非数值型数据的预处理。
　　流量分类和识别是网络流量监测活动的重要组成部分。然而传统流量分类方法的不足，有硬件应用的限制和网络协议等原因，因此需将决策树分类算法应用到流量分类中。
　　决策树根据属性分类的信息增益的值，从而对数据集进行分类生成决策树，并能推导出决策的规则在入侵检测中，入侵的类型往往由某些特定的属性发生异常的变化，这些属性连接成入侵连接记录。
　　在KDD99数据集中包含了22种训练攻击类型和1种正常的标识类型normal，作为连接记录的最后标识KDD99数据集中每个连接记录是在规定的协议下在规定的时间内完成的起始并终止的TCP分组序列，这些序列在固定的源 IP地址与目的IP地址之间进行数据传输每个连接记录大概有100个字节记录中包含了41个固定的特征属性和一个类标识，标识用来表示该连接记录或者是正常，或者是某个具体的攻击类型。
　　决策树在入侵检测中的检测率和误报率
　　类别描述检测率误报率
　　DOS 拒绝服务攻击 97.5% 0.1%
　　R2L 远程非法进入 8.4% 1.2%
　　PRB 刺探和扫描 83.3% 35.2%
　　NORMAL 正常数据 99.5% 25.4%
　　实验结果表明，采用决策树算法的入侵检测技术，在保证较高准确率的同时，基于决策树算法的流量分类和识别应用还具有建模速度快，适合于在线流量分类的特点，对于 DOS和PRB攻击具有较高的检测率，而对R2L的检测比较弱一些。
结束语
　　采用决策树来构成生成器用于网络入侵检测是有一定的优点，生成的规则比较简单利于理解，可以处理连续和离散的属性，能提高入侵检测的性能和效率，。
　　参考文献：
　　［1］Riebard A Kemmerer,Giovanni Vigna.Intrusion Detection:a BriefHistory and Overvie［J］.Computer,2002:35:27- 30
　　［2］季赛.入侵检测实验数据的分析和预处理［J］.信息安全与保密,2005,5 :24- 26
　　［3］刘勇国,彭军,张伟等.入侵检测系统与聚类分析［J］ .重庆工业高等专科学校学报,2003,18(1):4- 9