1 引言
随着计算机技术、网络技术和数据库技术的快速发展,智能的、自动化的数据采集、存储技术,已经成为许多人研究的对象,智能网络安全可靠的运行,需要动态采集数据信息,实时地针对智能网络运行数据进行查询和监控,实现高效数据传输和共享。但是,智能网络数量众多,分布范围广泛,面对海量的、动态的、分布式的多源异构网络数据,传统存储模式已经无法满足实时性、可靠性的需求。因此,寻求一种适合现代海量网络数据存储的模型,已经成为许多学者研究的热点。海量数据存储系统中,许多数据长期不用,部分数据高频次使用,比如最新采集的数据在一段时间内会被经常性地访问,随着时间的推移,该部分数据访问频率将会大大地下降。因此,针对海量数据采用智能分级存储系统,可以有效地缩短数据访问和传输时延,提高数据的查询准确度,保证网络数据存储的安全性和可靠性,确保网络数据能够更好地为人们提供服务。
2 智能分级存储系统
海量网络数据智能分级存储系统可以采用直连式存储DAS或网络连接存储NAS构建分级存储。DAS存储设备可以使用光缆直连网络数据服务器,用户的读写请求可以直接发送到相关的网络存储设备上,能够有效支撑多存储设备的操作系统均可以采取DAS进行智能分级存储。NAS通常应用于数据共享过程中,能够基于网络实现文件级锁定,为智能分级存储系统提供高级的并发访问保护功能,实现异构环境共享数据文件。
海量网络数据智能分级存储系统的各个存储硬件设备使用NAS或DAS方式连接在一起,存储网络可以将用户的读写请求发送给关联的存储设备,存储设备完成数据操作,并且将结果反馈给请求程序。另外,智能分级存储系统根据文件的活跃程度,可以实现不同级别的数据在各个存储设备之间的自动化迁移。
3 智能分级存储关键技术
智能分级存储系统可以实现海量网络数据的自动化、分层化管理,实现数据的高效访问和存取,提高存储系统的资源利用率。智能分级存储系统的关键技术包括数据分类、数据放置和数据迁移等,这些技术可以有效地保证智能分级存储系统的访问有效性、存储可靠性和数据的准确性。
3.1 数据分类技术
数据分类可以定义海量网络数据的访问属性,根据不同的用户逻辑业务主题,参考数据的重要程度,对海量数据进行分类,实现智能分级存储,其是数据迁移的基础。
目前,网络数据分类没有统一的标准,可以根据网络数据的实际应用环境和用途,将数据分为硬件系统运行数据、软件系统运营数据等;可以根据数据自身的原始类型,将其分为非结构化、半结构化、结构化数据;根据数据的访问读写频次,将数据分为热点数据和非热点数据;根据数据的访问顺序,将数据分为周期性访问、顺序访问和只读数据。随着数据分类方法的研究,为了提高数据分类的精准程度和有效性,目前数据分类常用的策略包括基于知识、基于专家系统、基于案例等,数据分类实现方法可以包括静态分类、人工经验分类、动态分类等。基于人工经验分类方法需要数据操作人员熟练掌握网络运营数据内容,需要长时间积累数据管理和分类经验,因而一定程度上无法准确把握数据分类的合理性和准确性;静态分类是指存储系统构建完成后,预先设置数据分类主题和规则,设置完成后无法再改变,不能适应现代电力运营数据的多样化需求,存在较大的局限性;动态分类可以有效满足数据分类的各种需求,不断地适应业务需求的变化,具有很强的灵活性和适应性,并且不需要人工干预,使用数据挖掘、模式识别、机器学习、统计方法和自动控制理论等智能化数据分类,降低数据管理的复杂度。
3.2 数据放置技术
海量网络数据智能分级存储系统中,网络数据放置可以采取相关的原则,将存储系统中新添加的数据或是被迁移的数据存储在某一个特定的位置上。网络数据放置采用方法是否科学,直接影响智能分级存储系统的访问速度,制约网络数据的实时性,形成网络数据访问瓶颈等。在智能分级存储系统研究过程中,网络数据放置是一个非常常见的问题,已经得到了广泛的研究,常见的数据放置技术包括RAID、Stripe等。
由于海量网络数据智能分级存储系统具有多种存储介质,并且网络数据具有实时性、多元性特点,智能分级存储出现了许多新的需求,放置问题变得更加复杂化,比如数据放置的位置存在多种选择,每一种选择方案都对智能分级存储系统产生复杂的影响。为了解决上述问题,数据放置需要解决两个问题:一是数据放置在什么类型的存储介质上;二是数据采用放置形式,比如随机放置、文件分割放置、顺序放置等。目前,海量网络数据智能分级存储系统中数据放置的力度也发生了很大的变化,本文从块级别进行考虑,使用元数据属性,从文件块大小考虑放置策略,既改善了系统访问的效率,也降低了系统的硬件成本。
3.3 数据迁移技术
在海量网络数据智能分级存储系统中,网络数据的访问频次、服务质量等需求是动态变化的,需要使网络数据和存储设备实现动态匹配,相同级别或者不同级别之间的网络数据需要进行迁移,因此网络数据迁移是智能分级存储系统的核心技术之一。传统网络数据迁移是指根据软硬件环境升级的需要,将网络数据迁移到新的环境。在智能分级存储系统中,网络数据迁移通常包括同级迁移和异级迁移两种模式。同级迁移模式通常出现在存储系统硬件配置发生变化过程中,其主要目的是均衡各个存储设备的负载;异级迁移模式是智能分级存储系统经常发生的事件,其可以更好地优化存储系统,迁移过程中是自动化的,异级迁移过程可以是高性能存储设备向低性能存储设备迁移,也可以相反迁移。
网络数据迁移方法包括离线迁移和在线迁移,离线迁移实现简单,效率较低;在线迁移实现复杂,但是其适用于复杂业务处理,因此本文智能存储系统采用在线迁移,合理制定数据迁移计划和实施流程,降低数据迁移对带宽、CPU等资源占用率,并且有效提高数据访问综合性能。
4 结束语
随着网络数据的大幅度上升,智能分级存储系统可以为网络数据的运营提供高效访问、快速定位、安全储存等服务,保证网络数据应用的实时性、安全性、有效性。随着分级存储系统的发展,未来智能分级存储系统的主要发展趋势是智能化、虚拟化,其可以确保分级存储系统实
现数据迁移过程自动化和智能化,数据访问的虚拟化和透明化。
参考文献
[1] 敖莉,于得水,舒继武等.一种海量数据分级存储系统TH-TS[J].计算机研究与发展, 2011, 21(6):1089-1100.
[2] 牛德姣,蔡涛,詹永照等.海量存储系统中的元数据分级索引算法[J].计算机应用研究, 2012, 29(2):510-513.
[3] 施光源,王恩东,张宇.基于块级的分级存储数据特征模型及其应用研究[J].计算机研究与发展, 2013, 50.
[4] 黄洪,刘增良,余达太.一种智能化的数据分类、分级及保护模型[J].北京工业大学学报, 2011, 23(6):74-81.
[5] 张广艳,丘建平.分级存储系统中一种数据自动迁移方法[J].计算机研究与发展, 2012, 22(8):1357-1364.