摘 要:摘要:数据仓库是信息业界的明日之星,数据仓库与联机事务处理(OLAP)是过去十几年来最热门的信息领域,它们的目标是以计算机来取代许多当前的作业。文章首先介绍了数据仓库和联机分析处理技术的基本概念,比较并分析了它们同传统的数据库的差异,最后介绍并探讨了联机分析处理技术的发展领域。
关键词:关键词:数据仓库;联机分析处理;联机事务处理;传统数据库
中图分类号:TP392 文献标志码:A 文章编号:
引言:
随着市场竞争的日趋激烈,信息对于企业的生存和发展发挥着越来越重要的作用。与此同时,在各个领域产生了大量的数据,但是面对不断增加如潮水般的数据,传统的数据库管理系统已无法满足决策支持系统对数据的要求,因此人们提出了更深层次的问题:能不能从数据中 提取信息或者知识为决策服务。在这种情况下,一种适用于决策支持系统的数据组织与管理技术—数据仓库1技术应运而生。
1.数据仓库技术
1.1 数据库到数据仓库的演变
传统的数据库与OLTP(On-Line Transaction Process)平台并不是为了分析数据而设计的,用户可以在一个OLTP平台上安装数个应用系统,它在数据共享、数据与应用程序的独立性、维护数据的一致性和完整行及数据的安全保密性等方面提供了有效的手段。但是当它与分析型应用结合时,却出现了许多问题。
首先,利用传统的数据库进行数据分析,分析的结果缺乏可靠性。其次,利用传统的数据库进行数据处理,其效率很低。第三,传统的数据库难以将数据转化成信息。第四,传统的数据库系统主要用于事务处理,而在事务处理型的应用环境中直接构建分析决策型应用是不可能的。所以,为了提高分析和决策的效率和有效性,面向分析决策型应用的数据处理及其数据必须与事务处理型应用环境分离,建立单独的分析决策型应用环境。数据仓库正是为了解决这一问题而诞生的一种数据存储和组织技术。
数据仓库与传统的数据库的不同之处在于数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它可以支持企业或组织的决策分析处理2。
2. 联机分析处理技术
联机分析处理OLAP(On-Line Analytical Processing)技术3是基于数据仓库进行数据分析的一种技术。OLAP可使企业数据分析人员、企业经理及企业其他管理人员通过对企业信息的多种可能的观察角度进行快速、一致和交互性的存取,以获得对信息的深入理解。
2.1 OLAP的基本特性
OLAP是数据处理的一种技术概念,其定义简单的概括为:共享多维信息的快速分析。OLAP通过对多维信息以很多种可能的观察方式进行快速、稳定一致和交互性的存取,允许管理决策人对数据进行深入观察。其特点4有四个方面:
(1)快速性。用户对OLAP的快速反应能力有很高的要求。要求系统能在几秒钟内对用户的多数分析要求做出反应;
(2)可分析性。OLAP系统应能处理与应用有关的任何逻辑分析和统计分析;
(3)多维性。多维性是OLAP的关键属性和灵魂,系统能够提供对数据分析的多维视图和分析,包括层次维和多重层次维的支持。
(4)信息性。OLAP系统能够及时获得信息,并且管理大容量信息;
(5)共享性。共享性是在大量用户间实现潜在地共享秘密数据所必须的安全需求。
2.2 OLAP的基本分析操作
OLAP的基本操作是指通过对多维形式组织起来的数据进行切片、切块、聚合、钻取、旋转等分析动作,以求剖析数据使用户能够从多种维度、多个侧面、多种数据综合度查看数据,从而深入地了解包含在数据中的信息、内涵。
(1)切片(Slicing)。
切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员,或全部属性成员来观察数据的一种分析方式。
(2)切块(Dicing)。
切块就是在各个维上取一定区间的成员属性,或全部成员属性来观察数据的一种分析方式。从另一个角度讲,切块可以看成是在切片的基础上,进一步确定各个属性成员的区间得到的片段体,也即由多个切片叠合起来。
(3)钻取(Drilling)。
钻取包含向下钻(Drill-down)和向上钻(Drill-up) /上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维度所划分的层次相对应。
(4)旋转(Pivoting)。
旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列,或是把某一个行维移到列为中去,或包页面显示中的一个维和页面外的维进行交换。
3. OLAP与数据仓库
在数据仓库中 ,OLAP和数据仓库是密不可分的,但是两者是不同的概念。
数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据要用于对企业的经营决策提供分析和支持。数据仓库中的数据是不能用于OLTP的,而OLAP则利用数据仓库中的数据进行联机分析,将复杂的分析查询结果快速地返回用户。OLAP利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价。
OLAP可用多级结构表示数据仓库中的数据,创建组织和汇总数据的立方体,这样才能有效的提高用户复杂查询的要求。因此数据仓库的结构将直接影响立方体的设计和构造,也就影响了OLAP的工作效率。
从OLAP使用的效率角度考虑,在设计数据仓库时应该考虑一下几个因素:
(1)尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。
(2)为用户设计包含事实表的维度表,这些维度表应该包含有意义的、用户希望了解的信息。
(3)度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。
(4)事实表中不要包含汇总数据,事实表中包含的用户需要访问的数据应该具有必需的粒度,这些数据应该是同一层次的数据。
(5)对事实表和维度表中的关键字必须创建索引,同一中数据尽可能使用一个事实表。
(6)保证数据的参考完整性,使事实表中的所有数据都出现在所有的维度表中,避免事实表中的某些数据行在立方体进行聚集运算时没有参加过来。
4. OLAP的发展
OLAP技术5是在市场竞争日益激烈,决策人员迫切需要准确及时并且可以灵活访问的决策信息的背景下兴起的。其主要的发展领域为:
(1)市场和销售分析
几乎每个商业公司都需要此类软件,但其大规模分布在:生活消费品行业、零售业、金融服务业。此类行业通常都需要用发哦OLAP能够对大量数据进行复杂的分析和统计功能。
(2)电子
商务分析
电子商务网站记录了用户在网上的所有行为,为更精细的分析用户行为提供了可能。一个典型的商业网站每天都产生大量的数据,简单手工分析显然难以胜任,用多维、分层OLAP可以很好的把这些数据组织起来。
(3)基于历史数据的营销
通过各种不同的历史数据,用数据挖掘或统计的方法,找到针对某项服务或商品的销售对象。虽然传统上不是OLAP的范围,但是通过多维数据分析的引入,会取得更好的效果。
(4)预算
预算通常是从下到上提交和从上到下约束的反复过程,OLAP工具可以在这个过程中提供分析能力。预算制定者利用OLAP提供的工具浏览市场、销售、生成及合并计划等企业全方位的数据,得到一个较合理的方案,也可以利用这些数据自动制定出方案。
(5)财务报告与整合
早起的财务报告整合系统与现在OLAP相似,但是OLAP利用对多维数据的分析能够更好的对其进行管理。
(6)管理报告
(7)利益率分析
(8)质量分析
5. 小结
数据仓库和联机分析处理技术在市场竞争日益激烈的的背景下逐渐兴起,目前正处于快速发展的阶段。文章首先对数据仓库和联机分析处理技术做了详细介绍并将它们和传统的数据库做了对比,得出数据仓库和联机分析处理技术是在传统数据库无法到达设计者需求下产生的。文章最后对联机分析处理技术的发展领域做了介绍和分析。相信在不久的将来基于数据仓库的联机分析处理技术定会成为处理数据的主流技术。
参考文献:
HanJiawei,LuHongjun:The Leeture of Datamining and Datawarehouse•SP Onsoredby:IBM China University RelationshiPs,1995年
基金项目:国家自然科学基金青年基金(61103195);国家博士后基金项目(20100480048)