随着计算机网络在军事领域内广泛应用及作战行动对网络的高度依赖,计算机网络瘫痪也就意味着整个作战体系崩溃,使得交战双方围绕破坏敌方计算机网络系统和保护己方计算机网络系统的争夺变得异常激烈和复杂多变.计算机网络对抗过程具有如下特点:
1)非合作性.在计算机网络对抗过程中,攻击者的目标是绞尽脑汁发现漏洞并利用其发动攻击,进而对信息系统造成最大危害,而防御者目标就是最大努力地去发现和修补漏洞以免遭受攻击或减轻损失.本文将运用博弈模型对网络攻防的非合作关系进行刻画.
2)演化性•网络攻击行为本质上是一^离散时间动态事件序列,在网络对抗过程中,攻击者或者防护者采取一次行动后,不仅导致攻防双方对抗过程发生变化,而且还导致计算机网络状态发生演化.本文将运用马尔可夫决策过程对这种随机演化过程进行描述.
3)相关性.计算机网络各个节点不是孤立的,而是相互关联的,网络中某个节点被破坏往往会影响其它节点安全性.因此,在网络对抗过程中攻击行动所达到的效果,不仅与网络防御策略有关,而且与网络攻击行为发生时目标网络的连接属性有关.本文将在网络状态转移函数中考虑网络的这种关联特性.
尽管基于博弈论计算机网络安全领域的研究工作取得了一定的研究成果,但目前大部分的研究工作都未能跳出传统矩阵型博弈的研究框架,即研究系统单个状态下的网络对抗策略1卜、然而,在现实的计算机网络对抗过程中,系统可能存在多个状态,并且各个状态之间存在相互转移概率,这就需要新的建模方法.马尔可夫博弈模型与传统矩阵型博弈模型不同点在于:1)传统矩阵博弈模型中的收益矩阵是不发生变化的,而在马尔可夫博弈模型中,每个状态的收益矩阵是不相同的;2)马尔可夫博弈模型将计算机网络对抗看成是在多个系统状态上的对抗,并且攻防双方的行动使得网络从一个状态转移到另一个状态,如图1所示;3)由于网络攻击行动具有随机‘性,马尔可夫博弈模型更易对网络系统状态进行全面有效的描述,精确刻画网络系统随机行为以及组件之间的相互关系.
马尔可夫决策过程是单个智能体多状态模型,而矩阵型博弈是多个智能体单一状态模型.从某种意义上说,将矩阵型攻防博弈模型的单个状态扩展到多个状态,或者将马尔可夫决策过程中的单个智能体扩展到多智能体,都可以得到马尔可夫博弈模型[5-61.三种模型之间的关系
马尔可夫博弈模型可以用五元组(n,5,P,纪),其中:n为决策主体的个数;S为离散状态集;A为主体t可选择的行动集合,4为所有决策主体的联合行动空间,4尸为转移函数,Sx4xS4[0,1],满足马尔可夫随机特性且E=1,VseS,炉为第i个主体的报酬函数,SxA—R.
网络状态作为马尔可夫博弈模型的状态集,将网络攻击策略作为模型的行动集合,在此基础上用一个七元组=(A^S,AR丑,V)来表示计算机网络对抗问题.其中:
1)TV={ylMacA:er,_De/encter}是参加攻防博弈的局中人集合.若攻击者的数量大于2,则表示分布式系统攻击;若防御系统的数量大于2,则表示多个防御系统协同防御.本文将考虑7V=2的情况,一个攻击者和一个防御者,将多个攻击者和防御者进行合并看作是单个攻击者和防御者;
2)S={氏,S2,…,St}是博弈状态集合,本文用网络状态来刻画博弈状态,且S=你,灸,…,S8};
3)A={叱,a2,…,aM}攻击者行动集合,攻击者在状态&.的攻击行动集合4CA且^=浼
4)Z)={山,d2,…,4}防御者行动集合,防御者在状态九的防御行动集合AteD,且Uj^=1At=!?;
5)P:SxAxDxS—[0,1]是计算机网络对抗过程中状态转移概率函数:
6)瓜(s,a,d):SxAxD—R表示局中人heiV在本状态的报酬函数.报酬函数表达了攻防双方在各个阶段从网络对抗中获得的收益值.不同策略可能得到不同收益值,它是毎个局中人真正关心的参数;
7)V为准则函数,可以作为目标函数,用来判断攻防双方策略的优劣.准则函数的选择由决策者权衡各方面的利弊而决定,比较常用的准则有折扣期望报酬准则函数和平均报酬准则函数.
由于在计算机网络对抗过程中,网络信息的价值跟时间有很大关系,因此,本文采取折扣总回报值作为攻防双方的目标函数,具体形式可以表示为:
F(5,D)=R(S,A,D)+(3J2S'MS')⑴S’
从⑴式可知,网络攻防双方的目标函数不仅考虑了当前收益值,而且考虑了预期机会和收益.其中,丑(5,乂,£»)表示在网络状态S0才攻防双方策略分别采取策略A和£)时的收益值;卢为折扣率,体现未来的收益值与现在的收益值不能同等看待;AA表示攻防双方分别采取策略乂和£>时未来
折扣收益值.攻防双方的目标就是为了使得各自的目标函数最大化.下一节将证明,以上计算机网络对抗行动马尔可夫博弈模型存在均衡策略.
3计算机网络对抗摘Markov博弈模型分析
3.1模型均衡策略定义
从博弈论角度来看,均衡策略是这样一种状态,所有参与人都处于对其它参与人机会主义防范的最佳位置,任何机会主义者都不能占到任何便宜^因此,对于计算机网络对抗的马尔可夫博弈模型=
(iV,S,A,D,P,K,叹,假设网络处于状态&时,计算机网络攻防双方对抗策略分别是吋=(7rfca(ai),吋(a2),…,71^(叫)),々=(7^(山),7^(6?2),…,7^⑷)),那么对抗策略(Trf'Trf)为均衡策略的充分必要条件为:
1)对于任意<,都满足Va(7rfW)2Va(7it,7rf);
2)对于任意<,都满足Vd(7rf,7rf)2■^(Trf'vrf);
从马尔可夫决策过程角度来看,计算机网络马尔可夫博弈模型的均衡策略是指在每一个适当子博弈中达到纳什均衡的马尔可夫策略组合[81.因为状态包含了过去行为在每个子博弈中对策略和收益函数的影响,如果参与人的对手采取马尔可夫策略,那么该参与人也会有一个马尔可夫最优响应策略19】.因此,假设,=(7TK,…,7TU为马尔可夫博弈模型中某局中人/1的均衡策略,那么对于任意时刻f=0,1,…,7V-1,都满足:
SVf{ht)=Rt{Sua:{ht))+Y.^P^S〇I(2)
3.2模型均衡策略分析
在运用马尔可夫博弈均衡策略这个定义之前,涉及到了另外一个问题,这就是均衡策略是否存在的问题.如果这种均衡策略不存在,那么之前定义的均衡策略意义就不大了.
因为计算机网络对抗马尔可夫博弈模型是矩阵型攻防模型扩展到多个状态得到的,所以在某一^状态fc下,博弈状态為是一个矩阵型攻防博弈.又因为博弈状态集<5,攻防动作集合为A乃,收益值L都是有限的,所以计算机网络对抗问题=(iV,S,是一个有限马尔可夫博弈模型•借鉴文献关于随机博弈均衡策略存在性的证明方法,下面对计算机网络对抗博弈模型均衡策略的存在性进;mi明_命题1给定一个计算机网络对抗策略的马尔可夫博弈问题ADSG=(A^,^AP,ya,Ki),如果网络状态集A攻防策略集八乃都是有限集合,那么这个博弈问题存在一个均衡策略.
证明当网络处于状态民时,假设攻防双方行动集合分别为义和A为了便于表达,用亡=(‘必来表示攻防双方在网络状态*SiB寸对抗策略,其中4为攻击者策略,4为防御者策略.用(趵心来表示攻防策略㈦,pi)或者(‘4),其中A为局中人/i在网络状态民的任意策略•假设当攻防双方采取策略W时,系统从状态民转移到状态&的概率为,,局中人/I(A=1,2分别表示局中人为攻击者和防御者)的收益值为甩(亡),其中氏=屯为,…,知,在此基础上得到局中人ft从状态i开始进行对抗的总收益值为:
SSS〇i=ru^)+p^2pij^)Ri^++■■■⑶j—ij—ife=i