1 引言
大数据是随着云计算的兴起而产生的,它有四明显个特征:数据的容量大(Volume)、数据的类型多样化(Variety) )、数据的产生和处理速度快(Velocity)、数据中蕴含着巨大的价值(Value),即所谓的4V概念。另外,还有观点提出了数据精准性(Veracity)的特征,强调大数据分析处理的精准性,从而形成了5V的模式。
大数据与传统数据在存储、计算和检索等方面有着显著的区别。传统数据是线性的,大数据则是离散的,具有发散性、随机性、复杂性、爆发性等特点。与传统数据相比,大数据更能真实地反映客观世界。
2 云计算及其关键技术
云计算是网格计算、并行计算、分布式计算的发展。云计算把大量的存储和计算资源,通过网络连接起来进行统一的管理和调度,构成一个资源池随时向用户提供按需服务。利用“云”,用户可以通过网络方便的获取强大的计算能力、存储能力以及基础设施服务等。
云计算作为一种数据密集型的新型超级计算,其技术实质是存储、计算、服务器、应用软件等 IT 软硬件资源的虚拟化。云计算在数据存储、数据管理和虚拟化等方面具有自身独特的技术。
2.1 数据存储技术
云计算技术的基础是信息存储的安全可靠性和读写的高效性。云计算采用分布式存储技术把海量的数据存储在服务器集群中,同时为一份数据存储多份备份,采用冗余存储的方式和数据加密技术来保证数据的安全可靠性,Google非开源的GFS和Hadoop团队开发的GFS的开源实现HDFS是云计算系统中广泛使用的数据存储系统。
2.2 数据管理技术
对海量数据进行分布式的处理与分析,并向用户提供高效的服务是云计算的主要功能,因此要求其数据管理技术必需能够提供高效的大数据管理能力。Google的BigTable数据管理技术Hadoop团队开发的开源数据管理模块HBase是当前云计算系统中主要的数据管理技术。
2.3 虚拟化技术
虚拟化技术是云计算、云存储服务的基础和关键。它将原本运行在真实环境中的计算机系统或者组件移植到虚拟化的环境中,通过在硬件资源、操作系统和应用程序这些不同的层次之间构建一个虚拟化层,这个虚拟化层做为中间层连接上下两层,它向上层提供下层相同或类似的功能,这样上层不直接运行在下层环境中,而是运行在这个虚拟化的环境层中。虚拟化层解除了上下两层的耦合关系,使上层的运行不依赖于下层的具体实现。虚拟化可以节省开销、整合服务、使资源得到最大利用。
3 大数据和云计算的关系
云计算为大数据处理提供了一个很好的平台。 大数据离不开云计算,云计算是大数据处理方式的最佳选择。云计算能为大数据提供了强大的存储和计算能力,能够更加迅速地处理大数据的丰富信息,并更方便地提供服务。
云计算强调的是计算,而大数据则是计算的对象。前者强调的是计算能力,后者看重的存储能力。大数据需要处理大数据的能力,而这种能力其实就是强大的云计算能力;而来自大数据的业务需求,也为云计算的实施找到更多更好的实际应用。
4 基于云计算的大数据处理技术
传统的数据管理以收集和存储为主,在云环境下,大数据的管理将创新数据的管理模式,偏重数据的分析与挖掘,为管理与决策服务。
4.1 大数据的采集
大数据的采集通常分为集中式采集和分布式采集,二者各具优缺点。集中式采集易于控制全局数据,分布式采集灵活性好。大数据的采集涉及企业内部的采集和企业之间的采集,充分利用云计算分布式并行计算的特点,采用混合式的大数据采集模式将会更有效率,即在整个大数据采集过程中,企业内部采用集中式的采集模式,而在企业之间采用分布式采集模式,这种数据的采集中,每个企业内部设置一个或者多个中心服务器,该中心服务器作为虚拟组织内的集中式的数据注册机构,负责存储共享的数据信息。企业之间所有的中心服务器之间则采用分布式数据采集模式进行组织。
大数据既包括结构化数据又包括半结构化、非结构化数据,在进行云计算的分布式采集时,应按照不同的数据类型分类存储。云计算具有很强的扩展性和容错能力,可将数据池内相同或者相似的数据同构化,同时可以应用集群技术、虚拟化技术实现机构之间的无缝对接和超级共享。
4.2 大数据的存储
由于大数据本身的特点,传统的数据仓库也已经无法适应大数据的存储需求。首先,大数据的急剧增长,单结点的数据仓库系统往往难以存储和分析海量的数据。其次,传统的数据仓库是按行存储的,维护大量的索引和视图在时间和空间方面成本都很高。
基于云计算的数据仓库采用列式存储。列式数据仓库的数据是根据属性按照列存储,每一属性列单独存放。投影数据时只访问查询涉及的属性列,大大提高了系统输入和输出效率。由于列式存储的数据具有相同的数据类型,相邻列存储的数据相似性比较高,可以有更高的压缩率,而压缩后的数据能减少输入与输出的开销。
4.3 大数据的联机分析
联机分析处理是数据仓库系统的主要应用。它支持复杂的分析操作,侧重于决策性分析,并且能够提供直观易懂的查询结果。在联机分析当中,云计算的分布式并行计算从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够更全面地分析数据。
多维数据分析是联机分析处理的一个主要特点,这与数据仓库的多维数据组织正好契合。因此,利用联机分析处理技术与数据仓库的结合,可以很好地解决决策支持系统中既需要处理海量数据又需要进行大量数值计算的问题。
4.4 大数据的挖掘
利用联机分析一般只能获得数据的表层信息,难于揭示数据的隐含信息和内在关系。大数据挖掘是指从海量数据的大型数据仓库中提取人们感兴趣的隐性知识,这些知识是事先未知且是潜在的,提取出来的知识通常可以用概念、规则、规律或模式等形式来表示。
基于云计算的大数据挖掘采用分布式并行挖掘技术。分布式并行数据挖掘技术的特点在于它适用于处理大规模的数据处理。一般的串行数据挖掘算法只能适用于规模较小的数据,并且其运行需要花费大量的时间。分布式并行数据挖掘是指在分布式系统中,机器集群将并行的任务拆分,然后交由每一个空闲
机器去处理数据,极大地提高了计算效率。
MapReduce 是云计算环境中处理大规模数据集的挖掘模型,程序员在Map(映射)函数中指定各分块数据的处理过程,在Reduce(规约)函数中对分块处理的中间结果进行归约。在大数据中的应用,不仅可以提高数据挖掘的效率,而且这种机器数据的无关性对于计算集群的扩展也提供了良好的设计保证。
4.5 大数据的可视化
大数据挖掘可以提取到大量人们感兴趣的信息,应用可视化技术可以更好的揭示这些海量信息之间的关系及趋势。数据可视化是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,是将大型数据集中的数据以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。它使人们不再局限于通过关系数据表来观察和分析数据,还能以更直观的方式看到数据及其相互结构关系。在云环境下,大数据的可视化不仅可以用图像来显示多维的非空间数据,帮助用户对数据含义的理解,而且可以用形象、直观的图像来指引检索过程, 提高了检索速度。
5 结束语
大数据需要超大的存储容量和计算能力,云计算作为一种新的计算模式,为大数据的研究及应用提供了技术基础。大数据与云计算相结合,相得益彰,都能发挥出自己最大的优势,也必定能创造出更大的价值[3]。随着技术的成熟,自动收集和统计海量的数据将越来越简单,但是蕴藏在大数据中深层次的价值的挖掘还须人的参与,因此为用户提供更多可视化、简化的大数据应用软件,将成为大数据研究的一个重要方面。
参考文献
[1] 张蕾.基于云计算的大数据处理技术[J].信息系统工程,2014,4:121.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146.169.
[3] 余建烽,张振宇.大数据与云计算的关系及发展趋势探讨[J].信息科技,2014,1(上):201-203.
[4] 张春艳.云计算下的 SRINT 并行算法研究[J].软件,2010(11):57-61.
[5] 迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013,12:50-51.
[6] 吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.
[7] 冯海超.透视美国大数据爆发全景[J].互联网周刊,2013(1):38-41.
作者简介:
孙海军(1974-),男,河北石家庄人,硕士,讲师;主要研究方向和关注领域:数据库、大数据、计算机网络。