网络流量建模有着广泛的应用。在本文中,我们提出了网络传输点过程(NTPP),这是一种 概率深层机制 ,它可以模拟网络中主机的流量特性,并有效地预测网络流量模式,如负载峰值。现有的随机模型依赖于网络流量本质上的自相似性,因此无法解释流量异常现象。这些异常现象,如短期流量爆发,在某些现代流量条件下非常普遍,例如数据中心流量,从而反驳了自相似性的假设。我们的模型对这种异常具有鲁棒性,因为它使用时间点流程模型有效地利用了突发网络流量的自激特性。 在从网络防御演习(CDX)、网站访问日志、数据中心流量和P2P流量等领域收集的7个不同的数据集上,NTPP在根据几个基线预测网络流量特性(从预测网络流量到检测流量峰值)方面提供了显著的性能提升。我们还演示了我们的模型在缓存场景中的一个应用程序,表明可以使用它来有效地降低缓存丢失率。
对新型网络应用和系统的需求日益增长, 使得网络流量行为更加复杂和不可预测 。例如,在数据中心网络中,流量微爆发源于应用程序[1]的突然流行,而在副本[2]间的信息同步过程中产生的大象流会在骨干网络上造成临时的负载不均衡。另一方面,由于不同的终端用户活动模式[3],诸如多媒体流媒体和视频会议等流量密集型应用导致了蜂窝网络和移动网络上的巨大流量差异。这种流量差异影响最终用户应用程序[4]的体验质量(QoE)。此外,随着基于Internet小型计算机系统接口(iSCSI)的分布式存储[5]和物联网(IoT)应用[6]的大规模地理分布式云存储同步的迅速普及,网络流量变异性成倍增加。各种安全攻击,如分布式拒绝服务攻击(DDoS),加剧了流量模式预测[7]的假阴性问题。 由于应用范围的多样化,短期和长期的流量爆发在各种类型的网络中都很常见;因此,研究人员探索了不同的 基于突发周期性假设 的流量突发预测技术,如 流量矩阵[8]的部分可预测性 、 张量补全方法 [9]等。然而,最近网络流量的高度不均匀性 使这种流量突发周期性的假设失效,并导致了明显的流量差异和多重分形流量变化 ,这需要单独的检测工作。这种交通差异和多重分形的例子包括数据中心或或ISP骨干[11]网中流量的突发峰值(微突发)[10]、多媒体应用的流量(如视频流媒体)[12]、存储同步[13]、恶意或攻击流量(例如物联网设备中的DDoS攻击)[7]。因此,需要开发一个流量事件预测模型,该模型可以捕获诸如流量突发、突发峰值、主机带宽使用的意外跳变等流量差异和多重分形流量变化。 在这项工作中,我们旨在 将差异性和可变性检测集成到网络流量建模中 ,从而为高度异常的网络流量提供统一的模型。为此,我们按照单独的网络主机(例如数据中心服务器或终端用户设备)的传输特性来分解流量预测问题,在此我们着重于总网络带宽的份额每个主机使用的时间,称为给定时间的“优势”。为此,我们提出了网络传输点过程(NTPP),它是一种基于时间点过程机制的深度概率机制。 NTPP首先使用 循环标记时间点过程 (RMTPP)表征主机突发流量产生的事件[14],该过程结合了主机的影响以根据可用带宽转发流量突发。此外,我们使用一组学习来对任意给定时间内对网络中不同主机进行排序的模板进行 排序 ,从而对不同主机之间的争用进行建模,其中主机的排序由其生成的通信量决定。这些模板提供了各种方法来评估一对主机的相对顺序,这些顺序是由它们的争用过程引起的。这些措施,连同底层的包传输过程,确保在整个时间窗口内主机之间的正确排序。为了了解传输动态以及排名的变化,我们将给定主机的观测传输时间的似然性最大化,并结合学习对模板进行排名的其他措施进行统一。这种额外的小工具使我们的模型能够预测意外的峰值,带宽使用量的跳跃,否则很难追踪(实验着重证明了这一点)。 我们根据来自不同域的 七个 真实数据集上的几个最新基准评估了我们的系统,这些数据集可能会显示异常流量。其中四项是从各个组织进行的网络防御演习中获得的,一项是从网站访问日志(1998年世界杯Web服务器)获得的,另一项是从数据中心流量的获得的,另一项是从BitTorrent网络获得的。我们观察到,在预测主机流量方面,NTPP的平均性能比最具竞争力的基准好11%,而在检测主机带宽消耗的突然跳升或峰值时,NTPP的预测精度提高了约25%。我们还使用基于NTPP的模拟器实现了下游缓存应用程序,并且观察到缓存未命中率降低了约10%。 贡献 : (1) 复杂包传输过程建模 :我们设计了NTPP,这是一个多主机网络流量动态的非线性随机模型,能够准确地捕捉到包传输过程中攻击性跳跃和不规则行为的存在。此外,与现有的离散时间流量模型(如[9]、[15])相比,我们使用了时间点过程的连续时间特性。 (2) 主机间的争用建模 :我们的NTPP方案利用了[16]中提出的产品竞争建模思想,将丰富的学习文献与网络流量建模联系起来,对[17]其进行排名。 (3) 预测能力 :NTPP不仅具有理论基础,而且具有实践效果。我们的模型能够比几种最先进的基准更有效地预测分组传输动态。此外,嵌入式鉴别模块有助于实时估计带宽消耗的突然变化,这是一个至关重要的实际挑战,所有基准都无法追踪。 (4) 下游应用 :我们演示了NTPP在下游缓存场景中的应用,突出了它的实用性。现有的原始内容缓存由于突发的流量而存在较高的缓存丢失率,而我们的模型支持的智能内容缓存通过根据不同主机的预测流量为它们保留不同数量的内存空间来实现更好的性能。
从历史上看,大量的工作集中在从各种不同的角度对万维网流量进行建模,使用各种分布模型,如泊松、帕累托、威布尔、马尔科夫和嵌入式马尔科夫、ON-OFF等。随着互联网的发展和各种Web服务的引入,提出了更复杂的模型,如马尔科夫调制泊松过程[19]、马尔科夫调制流体模型[20]、自回归模型[21]、流量矩阵[8]的部分可预测性、张量补全方法[9]等。然而, 这些模型只能捕获特定类型的网络事件,而不能泛化为捕获Internet流量中的不同流量差异和变化 。在另一个独立的线程中,研究人员将互联网流量爆发建模为一种显示自相似性[22]的现象。然而,许多工作23],[24]也质疑“自相似性”的假设,特别是在互联网骨干网中,从多个来源的流量会得到多路复用。 随着大规模数据中心、基于物联网的平台、蜂窝网络和移动网络、信息中心网络等领域的出现,互联网流量的性质发生了巨大变化。因此,出现了各种领域特有的模型,如数据中心[15]的流量微突发预测、流量异常检测[25]、物联网流量表征[26]、互联网社交事件预测[27]等。此外,由于网络流量在不同的差异和变化下具有不同的性质,最近的一些工作探索了基于机器学习的技术来预测流量模式[12]、[28]、[29]中的不同事件、异常和不一致性。然而, 这种预测模型是针对特定的网络系统设计的,缺乏通用性 。
在本节中,我们将制定NTPP,即所提出的模型(参见图1),该模型捕获了网络流量动态的两个主要组成部分—(i)集体包传输机制和(ii)多个主机之间的争用。在一开始,NTPP是由一种基于点过程的深层概率机制驱动的——点过程是一种特殊类型的随机过程,它自然地捕获了连续数据包到达背后的机制。此外,它还包含一个判别模块,该模块包含一系列对函数[17]进行排序的学习,专门设计用于建模主机间争用过程。接下来,我们将从时间点过程的概述开始,详细描述它们,然后描述学习和预测动态的方法。