摘 要:随着网络传输数据总量的急剧增加,现在有一种研究实体试图通过挖掘传输数据来得到有用的信息。例如,存在一些调查,所调查研究的内容涉及到网络蠕虫病毒的侦查和通过非正常的传输模式而进行的侵入。然而,因为网络传输数据包含了用户的网络使用模式的信息,因此网络用户的私有信息可能在挖掘过程中受到威胁。因此,我们提出了一种有效而实用的方法来保护隐私,这种保护是在网络传输数据的序列模式挖掘过程中实现的。为了在不侵犯隐私的情况下发现频繁序列模式,我们在方法中使用数据仓库服务器模型,这种模型作为一个单一的挖掘服务器和保持复位技术而运行,它有可能改变问题的答案。另外,我们的方法通过保持每一点的元数据表加速了全面的挖掘过程,从而快速确定候选序列是否在站点发生过。
关键词:数据挖掘;序列模式;网络流量;隐私
随着网络技术的快速发展,连接到网络的计算机数量和通过网络交互的数据已明显增多。当前,出现了一种新类型的数据挖掘,在这种挖掘中,研究员从网络传输数据中提取有帮助的信息,这些新信息是通过远程服务器自动聚集在一起的。从正常的网络传输数据中确定网络入侵的模式和区分非法的网络活动是典型的例子。
表1展示出了一个通过Ethereal分析数据包聚集起来的网络传输数据的例子。表中的行描述了个人的网络传输数据并组成了其源地址,源端口,目的地址,目的端口和印时戳。
网络传输数据同其他数据相比具有以下特征:首先,各种性质的数据在所有计算机连接到因特网上之后便存在了,这些数据能够潜在的产生出网络传输数据。其次,大量的网络传输数据聚集起许多计算机间发送与接收的频繁交互信息。最后,待分析的网络传输数据在许多地点通常是分散的。
各种数据挖掘技术,例如关联规则算法和聚类算法能够用来分析网络传输数据。然而序列模式挖掘是最有帮助的算法,因为事件次序在网络传输数据中具有重要的意义。表2展示出了一个例子,假定了序列模式能够在网络传输数据中被发现出来。这里,序列模式2表示许多地点发送数据到“amazon.com”正好是接到来自“amazon.com”的数据之后。
网络传输数据包含因特网对每一用户用法的详细信息,这些信息表明了一个用户在某一特定时间访问一个站点。在这里,关于网络传输数据的数据挖掘自身存在着危及网络用户隐私的问题。因此,在数据聚集过程中,需要先进的技术来隐藏或重整用户的私有信息。此外,这些技术不应当以牺牲挖掘结果的正确性为代价。
隐私保护数据挖掘是一个新的研究领域,可以在保护个人用户隐私的同时帮助挖掘数据信息。最近,在这个领域里已付出了许多的研究努力。然而,在先前的研究中提出的大部分方法,管理着一些站点中的数据或是处理小数量的独特类型的数据。因而,这些方法并不适合于挖掘网络传输数据,因为他们的错误和低性能。为此需要提出了一种有效的序列模式挖掘方法,它能够在解决前面方法中遇到的不正确性和低性能问题的同时保护隐私。为了发现频繁项集(例如,长度1模式)而不危及私有信息,提出的方法使用数据仓库服务器模型,这种模型作为一个单独的挖掘服务器运行。同样,它包含了在每一站点的元数据表来快速确定候选序列是否在站点发生过,从而使得整个挖掘过程具有高效性。
利用数据仓库服务器模型来寻找频繁项集的程序如下:首先,每一站点通过哈希函数将它自己的网络传输数据分割成N个组,并且把每一个组利用唯一的加密算法加密,把钥匙赋值给每一组。然后它将每一加密过的组发送给N服务器中的一个。注意这个服务器不能将组解密,因为它没有相应的密钥。服务器通过统计每一接收项的出现情况来确定频繁项集。为了解密每一发现的频繁项集,服务器将项集发送到另一台具有相应密钥的服务器上。N服务器为接收项执行解密过程,然后让一个协调服务器统计每一候选频繁项集的出现情况,以此来寻找真实的频繁项集。
协调服务器通过将那些发现的频繁项集结合在一起而产生候选模式,并查询每一站点来判断每一个候选模式是否在站点中出现。为了快速识别出候选模式的事件,每一站点主张元数据表,这些表存储两件事情:(1)一对频繁项集在指定之前的间隔内一同发生(2)频繁模式在站点内发生。在元数据表中,1和0表示频繁模式是否分别发生。同样,每一站点发送给协调服务器这些由肯可能性P影响的值。对每一候选模式,服务器总结1和0的出现情况,然后使用频率和概率P计算现实中1和0的分配情况,从而确定候选频繁模式。
对于网络传输数据中的序列模式挖掘,我们提出了一个实用的方法。提出的方法保护了站点的隐私,并提供了挖掘结果的高准确度。通过提出的方法,我们可以通过分析网络传输数据,将侵入状态从正规状态中区别出来。这就使得确定序列模式成为可能,该模式只在闯入状态下频繁发生,因此帮助阻止入侵。特别地,大量的被感染的个人电脑,因特网的蠕虫能够影响相同模式入侵传输。因此,提出的方法对于自动检测这些入侵种类会相当有帮助的。
提出的方法可以应用到网页的挖掘序列访问模式,该模式频繁发生。结果能够使用在网页预取技术和网络服务器的负载平衡中。通过使用网页的高频序列挖掘模式,该服务器能够预测网页为一起访问,因而预取这些页来减少它们的访问时间。同样,通过分布这些网页到多样网络服务器。服务器过程信息更快的取决于负载平衡效果。
此外,为了提高我们所提方法的适用性,我们考虑将其延伸到动态环境中,这样在线网络传输数据便在实时挖掘过程中反射出来了。
参考文献
[1]肖仁财 序列模式挖掘算法研究与实现【D】 江苏大学 2007年
[2]李玉华 面向服务的数据挖掘关键技术研究【D】 华中科技大学 2006年
[3]张长海 胡孔法 陈凌 序列模式挖掘算法综述【J】 扬州大学学报(自然科学版)2007年01期
[4]段丹青 入侵检测算法及关键技术研究【D】中南大学 2007年