张兆代 王圣洁 刘京鹏 宋宏伟
(青岛海洋地质研究所)
摘 要 云计算继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术,形成了具有高性能、可伸缩、低成本及面向服务的新的计算模式。目前学术界及产业界对云计算的研究和探讨均呈快速增长趋势,大量论文发表在计算机类和图书情报类期刊,研究的重点集中在云计算的基础理论、云计算的关键技术、云服务的应用领域、云计算与信息资源管理等多个方面。本文以 2000 ~ 2012 年发表在国内核心期刊上关于云计算的研究文献为统计样本,分析了云计算的研究热点及其演化方向,结合我国地质资料集群化产业化服务的发展状况,探讨云计算应用策略。
关键词 云计算模式 地质资料 信息共享和服务
1 前言
“云计算(Cloud Computing)”一词出现于 2006 年,是谷歌总裁埃里克 施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次正式提出的一个概念。它不仅揭开了谷歌搜索背后关键技术的神秘面纱,而且在短短的数年内就迅速超越“网格计算(Grid Computing)”并成为新的潮流(图 1)。
图 1 网格计算与云计算搜索量变化趋势图
2006 年后,在谷歌、亚马逊、IBM 等企业的推动下,“云计算”作为新兴的计算模式已经有了广泛应用。云计算作为一种基础设施与服务的交付和使用模式,正深刻地影响着互联网的发展。近年来,国内外掀起了关于云计算的研究热潮,涌现了大量的研究文献和应用案例,云计算已经成为学术界和产业界共同关注的热点。本文首先介绍了云计算的基本概念和关键技术,并通过对现有的云计算研究文献的综合分析,结合我国地质资料集群化产业化服务的发展状况,提出其在云计算应用中需要注意的问题。
2 云计算及其关键技术
云计算的基本概念
云计算的概念仍存在不同的定义。一般认为云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备[1]。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)也给出了云计算的定义,认为云计算是一种能够通过网络以便利的、按需使用的方式获取计算资源并显著提高可用性的方式,这些计算资源来自一个共享的、可配置的资源池,并能够以自动的方式获取和释放[2]。
中国电子学会云计算专家委员会认为:云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,并以服务的方式提供。这种新型的计算资源组织、分配和使用模式,有利于合理配置计算资源并提高其利用率,从而促进节能减排,实现绿色计算[3]。
尽管云计算有不同的定义,但对于云计算的特点已有很多深入的讨论。下面五个基本特征可以用来判断一个计算服务是否是云计算。
(1)服务按需即取。云计算是把信息技术作为服务提供的一种方式。由于这种服务是从用户角度出发,按需即取的自助服务是其最重要的特征之一。用户可以自行获得计算能力,包括服务器的使用和网络存储的使用,而整个过程通常是自动进行的。
(2)便捷网络访问。云计算支持广泛和便捷的网络访问能力,用户可以使用多种设备,如手机、移动计算机或工作站等获取云服务。
(3)资源共享池。云计算带来的一个好处是能够提高资源的利用率,通过把资源集中到一个公共的资源共享池中,可以为大规模的用户群提供共享服务。由于资源池可以动态分配所有物理和虚拟资源,达到了通过共享提高资源利用率的目的。
(4)高可扩展性及弹性服务。云计算具有快速及可伸缩地提供服务的能力。根据需求变化,云计算所提供的服务可以自动并快速地扩展或收缩。
(5)服务可度量。云系统通过自动监控资源的使用,可以提供定量的运行报告,从而保证云服务处于应有的水平。
云计算的体系架构
计算机技术的发展经历了传统主机计算模式到个人普及计算模式及分布式网络计算模式的转变[4]。云计算作为一种新的计算模式,既是分布式计算、并行计算和网格计算等技术快速演化的结果,也是信息社会中信息需求的必然选择。社会化、集约化与专业化的信息服务通过各种云计算得以体现,其中既包括了各种通过网络提供给用户的互联网应用、软件或计算资源服务,也包含了用来支撑这些服务可靠和高效运行的软硬件平台。
美国国家标准与技术研究院的技术报告给出了关于云计算体系架构的完整模型(图 2),该顶层模型定义了云计算模式中的角色(Actors)、行为(Activities)和功能(Functions)[5]。云计算的核心角色有云用户(Cloud Consumer)、云服务商(Cloud Provider)、云审计者(CloudAuditor)、云代理商(CloudBroker)和云运营商(Cloud Carrier)共五类(表 1)。在该模型中,云用户可以获得包括 ERP、CRM、HR 等商业智能或信息、通讯、协作、存储、备份以及软件、硬件托管等多种服务,云服务商则通过云计算中心的建设、运行和管理提供在线的软件服务(SaaS)、平台服务(PaaS)和基础设施服务(IaaS),云运营商通过提供网络接入、通讯系统等保障云计算的提供和使用,云审计者和云代理商的参与则保证了云计算和云服务的稳定性、持续性和透明度及服务水平。
图 2 云计算体系架构参考模型(引自 NIST)
表 1 云计算模式中的主要角色及定义
云计算的关键技术
云计算是计算机技术发展的产物,其中虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理被认为是实现云计算的关键技术[6]。
虚拟化技术
虚拟化(Virtualization)技术是将各种计算及存储资源充分整合和高效利用的关键。虚拟化技术包括两个方面:物理资源池化和资源池管理。物理资源池化是把物理设备由大化小,将一个物理设备虚拟为多个性能可配置的最小资源单位;资源池管理是对集群中虚拟化后的最小资源单位进行管理,根据资源的使用情况对资源进行灵活分配和调度,实现按需分配资源。虚拟化技术主要应用在服务器虚拟化、存储虚拟化和网络虚拟化三个方面。
海量数据存储
海量数据存储是云计算的主要任务。为了保证可用性、可靠性和经济性,云计算采用分布式存储的方式来存储数据,由于采用了分布式冗余存储的方式,数据既有高可靠性,也能并行地为大规模用户提供服务。云计算的数据存储技术主要有谷歌的分布式文件系统(GFS,Google File System)和 Hadoop 的HDFS(Hadoop Distributed File System)。
分布式并行计算框架
并行计算是云计算的核心。云计算采用 Map-Reduce 的编程模式实现分布式并行计算。Map-Reduce通过“Map”和“Reduce”这样两个过程来简化并行计算,所有应用只需要提供 Map 函数以及 Reduce 函数就可以在集群上进行大规模的分布式数据处理。Map-Reduce 不仅仅是一种编程模型,同时也是一种高效的任务调度模型,该模型的使用使计算任务高度并行及分布式实现成为现实。
智能化与自动管理技术
云计算具有高度自治的特点,智能化与自动管理是云计算模式的重要技术支撑。通过对集群系统各节点的全面监控、自动反馈、智能调配,实现了包括设备、虚拟资源、通讯与服务等的动态管理和自动迁移。以第四代大规模数据中心为基础的云计算,既能灵活扩展部署,也能满足服务计算和多粒度计算的要求。
3 我国云计算研究热点分析
国内外云计算搜索量变化趋势比较
搜索量的大小通常反映关注度的高低,使用 Google Trends 工具还可以分析一些长期的趋势和变化。这里选择“Cloud Computing”和“云计算”分别作为世界和我国在云计算领域的指标性关键词,从分析结果可以看出以下几个特点(图3):①世界上对于云计算的关注开始于 2007 年,我国则自 2008 年才开始关注该领域。因此,我国仍属于学习—跟随型研究模式。②自 2007 年后,世界上关于“Cloud Computing”的搜索量出现迅速增长趋势,目前,已超过“Grid Computing”成为新的信息技术热点,我国对此的关注则较为平缓和滞后。③如果把搜索量代表的关注度看做是“海上的冰山”,那些“水下的部分”,包括基础理论、关键技术、应用实践等方面,国内外存在更大的差距。
图 3 国内外云计算搜索量变化趋势比较
国内云计算研究文献的计量分析
本文利用中国知网 CNKI 学术期刊数据库,检索 2000 年 1 月至 2012 年 3 月发表的有关云计算研究的核心期刊文献 852 篇(表 2)。我国对于云计算的研究始于 2007 年,之前罕见相关研究。2008 ~2011 年,云计算的研究开始引起广泛关注,论文数量开始急剧上升,同时发表云计算论文的期刊数量也同步快速增多,显示出云计算研究领域的广泛性。由于只统计到 2012 年 4 月的部分数据,从表面看检索到的 2012 年的成果不多,实际并未改变论文数量快速增加的趋势。
表 2 云计算论文发表时间分布表
对于检索到的 852 篇论文,对其关键词进行了计量分析,其中涉及关键词 1376 个,累计出现频次3020 次。按频次从大到小排列,排在前十位的关键词有:云计算(645)、虚拟化(115)、图书情报(115)、云服务(94)、安全(65)、存储(42)、物联网(33)、MapReduce(24)、档案(20)、数据中心(13)等。从关键词分析可以看出,云计算的研究涉及基础理论、关键技术、应用领域、信息资源管理等诸多方面,对于虚拟化、存储、MapReduce 等关键技术有较多论述;但整体来讲,多数仍为综述性、展望类的论文。就应用领域来讲,图书情报界对云计算进行研究和借鉴的趋势比较明显[7],而地质资料界对云计算的关注和应用研究仍较少。
4 云计算与地质资料服务
地质资料数据与服务现状
地质资料是国家重要的基础资料。新中国成立以来,通过实行地质资料统一汇交制度,积累了大量的地质资料。我国现有全国性基础地质与战略性矿产地质数据资源 12 大类 50 余种数据库,数据量达10TB 以上,涉及区域地质、矿产地质、水文—工程—环境地质、农业地质、海洋地质、基础地质、地球化学、地球物理、地学科研、地质资料、遥感等领域[8]。
我国目前实行的是二级监管、三级保存的地质资料管理框架。由于条块分割等原因,地质资料的共享与服务尚存在很大差距,突出表现在数字化程度低,信息孤岛现象严重,地质资料不能及时、有效地满足国家建设与社会需求。
2002 年,国务院颁布了《地质资料管理条例》,2003 年,国土资源部发布了《地质资料管理条例实施办法》,地质资料的管理与共享服务得到了前所未有的重视。国土资源部又相继推动地质资料汇交、地质资料委托保管、地质资料集群化、产业化服务等,地质资料的管理与服务开始出现一个新的局面。由于管理与服务模式的转变是一个较长期的过程,地质资料工作的重要性仍未完全显现,社会对地质、矿产等的关注度仍远落后于“土地”“海洋”“气象”,仅稍高于“测绘”(图 4)。
云计算是改变地质资料服务模式的契机
从云计算的产生和发展过程来看,云计算是在继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术的基础上,形成的具有高性能、可伸缩、低成本及面向服务的新的计算模式。云计算正在推动着信息产业实现社会化、集约化、专业化的大转型。
社会化:互联网计算正成为社会基础设施,建立集中的、各种各样的云计算中心实现规模化的社会服务,是当前发展的趋势。
图 4 地质等搜索量变化趋势比较
集约化:归并分散、粗放的软件开发与应用,软件模块构件化,提高平台利用率,使计算资源以虚拟化组织和配置、弹性伸缩,通过软件的重用和柔性重组,进行服务流程的优化与重构。
专业化:面向多租户使服务更为精细、规范,并对服务透明使用,按需租用[9]。
地质资料服务及信息共享是一种典型的数据密集型计算服务,这恰与云计算模式的基本特点相符合。因此,引入云计算是推进地质资料信息服务集群化产业化的天然契机。从技术层面上来讲,国家地质资料数据中心建设十分重要,建议规划为提供完整 SPI(软件即服务 SaaS、平台即服务 PaaS、基础设施即服务 IaaS)服务的地质资料专业云,全面涵盖二级监管、三级保存及社会化服务,这种集中式的部署方式既降低了技术难度,也有利于提高投入和使用效率。其次,国家地质数据中心也可以规划为“逻辑统一、物理分布”的三级数据中心体系,这种社区云的部署方式符合我国地质资料行业现状,组织实施均较为简单。需要注意的是,无论哪种方式,统一的体系架构、成熟技术的采用、一致的标准和安全性都是需要重点考虑的问题。
5 结语
与网格计算相反,云计算更多地经历了从实践到理论的过程,从研究者关注云计算开始,其实已经大量出现云计算的实例。我国在云计算领域的基础研究仍然落后,但图书情报界对云计算的跟踪和应用却十分突出,一些基于知识的服务已经达到专业化和产业化服务水平。相信云计算模式的引入,将会极大地推动地质资料服务向集群化产业化方向转型,以更好地实现地质资料和成果的全社会共享。
参 考 文 献
[1] 维基百科.云计算. 云计算,2012.
[2]Peter Mell,Timothy NIST Definition of Cloud Special Publication 800 ~ 145,2011.
[3] 李德毅,林润华,郑纬民等.云计算技术发展报告 [M[.北京:科学出版社,2011.
[4] 杨春霞,王圣洁,王春民.谈计算模式的演变及其对海洋地质数据处理的影响 [J].海洋地质动态,2004,20(2):32 ~ 36.
[5]Fang Liu,Jin Tong,Jian Mao et Cloud Computing Reference Special Publication 500 ~ 292,2011.
[6]Michael Armbrust,Armando Fox,Rean Griffith et the Clouds: A Berkeley View of Cloud ://,2009.
[7] 张正禄.我国图书情报界云计算研究述评 [J].国家图书馆学刊,2010,(3):73 ~ 76.
[8] 国土资源部矿产资源储量司.推进地质资料信息服务集群化产业化 [M].北京:地质出版社,2011.
[9] 李德毅.云计算支撑信息服务社会化、集约化和专业化 [J].重庆邮电大学学报,2010,22(6):698 ~ 702.