摘要:为了管理和保存海量信息,本文提出基于信息生命周期管理的数字图书馆分层存储架构模型,在考虑到数字图书馆肩负着长期保存海量信息的责任,首先,对此模型中各功能模块,分块阐述其工作内容;第二,详细介绍在数字图书馆中此模型的使用流程;最后,对此模型的研究方向进行展望。
论文关键词:信息生命周期管理(ILM,分层存储,数字图书馆
在数字图书馆存储系统中,普遍存在以下几个问题:数字图书馆的信息种类繁多;大多数数据需要长期保存;存储设备的性能和容量的提高远远满足不了快速增长的数据资源需要;不同应用和价值的数据全部堆放在一套高性能的存储设备上;存储设备种类繁多,存储环境日趋复杂,缺乏一个统一的存储架构。本文提出的统一架构模型以期解决以上问题。
1 基于ILM数字图书馆分层存储架构
鉴于数字图书馆大部分数据需要长期保存的特性,而且数字图书馆所保存数据具有各自不同的生命周期的特点,本文提出如下图1基于ILM分层存储架构模型:
图1 基于ILM分层存储架构模型
每个功能区域都包含很多的具体的服务模块。每个模块都清楚自己在架构的位置和作用。所有的调度,都是通过一个称为ILM知识库的数据库来与其他服务共享基础数据。图中所示三个主要功能区块详解如下:
1.1存储硬件分层
此模型是建立在金字塔型的基于ILM信息存储硬件分层上,主旨让最有价值、利用率最高的信息置于在线存储上,近线存储则存储一般价值、利用率较低的信息,而离线存储常用于归档数据,只要保证在用户有需求时可以找到并且再次利用。这里有两个问题需要说明:
1) 硬件分层是一种动态、弹性分层
分层首要是对现有存储设备按照其性能的优劣归类在线、近线、离线存储,而一个图书馆其设备的更新也是随存储技术和图书馆自身发展需要有新的存储设备购入和旧的存储设备淘汰的,所以,硬件的分层是动态的。
信息量是随着时间递增而递增的,每日用于服务的信息量也是快速在增长的,当然的,相应的存储空间也是随时间要扩大。但是,总是在一个周期后一些信息由于其价值的减弱会迁移至近线存储甚至是离线存储归档,这个时候某些数据库的存储空间,可能会减小,让位于一些同时期信息价值大数据库。所以,硬件的分层也是弹性的。
2) 信息归档的意义并不等于备份
数字图书馆信息长期保存的需求需要信息归档,在ILM的控制下,非活动数据的归档是数据生命周期管理的重要部分,归档也依赖于对数据集的分类,归档同时展现数据在系统中的迁移过程。
归档是一个智能化流程,它将不活跃的,很少被访问的,但仍有价值的数据进行搬迁,并提供查询和找回这些数据的能力,其与备份是有区别的:备份数据主要用于数据恢复,信息归档则侧重于找回数据;备份指的是信息拷贝,信息归档指的是信息搬迁;备份用于提高数据的可用性,而信息归档是增强操作效率用;备份的数据本质上属于短期数据,而信息归档的数据本质上属于长期数据;备份是典型的数据重写,信息归档则是典型的数据维护;备份的数据不适用履行法律法规的遵从要求,信息归档则可用于履行法律法规遵从要求[5]。
另外,信息归档也是要遵循一定规律的与备份有一定的联系,信息归档的体系架构如下图2所示[5]:
图2 信息归档的体系架构
1.2 管理服务
基于ILM的分层存储架构模型中的管理服务提供系统的操作管理功能。如图3所示,管理服务由三个部分组成:信息服务层、信息管理层、信息存储层。每层中都包括一组管理服务,每个服务提供一项具体的ILM流程功能。
图3 管理服务功能图
1.2.1信息存储层
信息存储层为物理存储设备与应用程序之间提供了一个管理接口。这些服务构成了一个抽象层,简化并提高了物理存储设备的分配和管理能力,或称这些服务为虚拟化。信息存储层可以对固定存储和移动存储设备进行操作,并对不同设备类型的细微差别进行调整适应。
1.2.2 信息管理层
为保证不同级别存储的信息能够在需要的时候发挥出应有的价值,必须从管理层次上考虑其安全性、访问服务的及时性等。为保证信息的安全性,可采用备份/恢复、快照、镜像复制、优化等手段,对于重复信息,需要在存储过程中加以删除,而归档数据也要做好标记,并且对所有信息提供索引/查询接口。
1.2.3 信息服务层
信息服务层负责应用程序及其运行的主机环境操作。该服务包括高度的可用性、自动化和监控服务。这些服务通过监控应用程序及其运行环境和自动化恢复与服务流程,从而改进信息存取的可靠性。这一服务对受控程序提供故障处理和重新启动的功能,从而为用户提供近似连续的应用服务和信息服务。应用服务层通过ILM知识库中的基础数据进行定义。
1.3 ILM知识库
ILM是整个分层存储的核心,所有的数据迁移都是在ILM知识库的控制下进行的。其核心作用体现在:建立一个更完整、更具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、方便的共享、所有数据受到适当的保护以及按照一定的规定(比如法律规定)管理数据。
2 实施步骤
整个数字图书馆分层存储的核心为信息生命周期管理,信息生命周期管理实施的难点主要是数据如何按信息生命周期来实现分层存储,需要明确信息价值,定义存储策略,选择合适的存储工具和存储介质。笔者为信息生命周期管理的实施制定了如下一个简单的流程,如图5所示例:
图5:基于ILM的分层存储实施流程
此数字图书馆分层存储中把信息服务分为高可用、可用、可得、数据保护、数据归档、删除6个等级;迁移工具有备份、迁移、回调、快照、镜像、异步复制6种;存储介质分为在线存储、近线存储和离线存储三种。如图所示,可分为①确定信息所在生命周期的阶段、②确定信息服务等级、③确定信息迁移工具、④确定存储介质以及⑤重新确定信息服务等级5部分。①②③④内循环针可用于系统数字图书馆数据资源的建设过程和保存过程,针对静态数据,①⑤②③④外循环则可用于数据个性化服务过程,针对动态数据。
3 总结
数字图书馆在中国的发展很快,所有211工程院校都有各自的数字图书馆,就单个数字图书馆存储本馆数字资源来看,本文提出的基于ILM的分层存储模型能够很大程度的解决存储问题。可是,仔细分析众多数字图书馆所存储的数据,可以看到,在存储紧缺的情况下,在各数字图书馆存储系统中存储的数据其重复度是非常高的,如何能够建立“数字图书馆联盟”或者说是“数字图书馆云”,使得数据在合法范围内共享的基础上,更有效益的减少存储成本将是笔者今后的研究方向。
[1] http://publish.it168.com/2006/0817/20060817004301.shtml
[2]Reiner D, Press G, Lenaghan M, et al. Information lifecycle management: The EMC perspective[C].In: Proceedings of the 20th IEEE ICDE.USA: IEEE Press, 2004:804-807.
[3] Tanaka T,U shijima D, Ueda R, et al. Proposal and evaluation of policy descripton for information lifecycle management [C]. In: Proceedings of 2005 IEEE CIMCA-IAWTIC.USA: IEEE Press, 2005:261-267.
[4] 何俊,杨明.信息生命周期管理的分层模型及实施办法[J].图书情报工作,2007,51(2):67-70