一、前言
传媒学家麦克卢汉认为,“任何技术都倾向于创造一个新的人类环境”。而IT技术在经历了大型主机、小型计算机、PC/微处理器、联网/分布式计算几个时代之后,现在处于第五次浪潮。其总体特征是以云计算为基础架构,支撑大数据处理和应用,从“以计算为中心”向“以数据为中心”转变。
对于当前大数据处理,中国社会科学院信息化研究中心秘书长、《互联网周刊》主编姜奇平认为“大数据就是云计算本身”,“两者都是数据的大规模集聚与定制化分布的结合”。
数据的大规模集聚与定制化分布为信息共享、信息协作和学习创造了一个全新的环境。一方面,学习者可以通过云计算提供的服务,自由地选择学习内容和学习方式,更好地利用信息资源和服务。另一方面,教育管理机构和教育科研工作者能更好地管理教学资源、开展教学设计、优化教学过程。但是传统的网络学习环境研究大都集中于功能或特性的移植,即从一个平台学习新的技术,到另一平台重新实现和集成,未涉及执行核心,没有从根本上解决大数据分析问题。
云计算,尤其是大数据的运用,给网络学习带来最大福利是成本降低,使计算机资源使用模式得以改变。根据谷歌的云计算模式,网络学习的用户所需的应用程序并不运行在用户的个人计算机、手机等终端设备上,而是运行在互联网上大规模的服务器集群中。用户所处理的数据也并不存储在本地,而是保存在互联网上的资料中心里,由云计算将分散的资源集中利用。然而大数据时代真正要让现有分散的网络学习平台和资源“无缝链接”,真正使用户使用有“直通车”效果,却面临着数据异构带来的挑战。
二、大数据时代异构数据的挑战
所谓大数据是数据本身连同采集工具、平台和分析系统的总称。通常认为大数据有四大特征,称为“四V”特征:
(1)量大(Volume Big)。数据量级已从TB发展至PB乃至ZB,可称海量、巨量乃至超量。
(2)多样化(VariableType)。数据类型繁多,涉及文本、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具涵盖软件工程及人工智能等。
(4)价值高和密度低(Value High and Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
在大数据时代,数据库趋向集中化、大型化,但应用向着分散化、小型化的方向延伸。对于当前网络学习平台而言,所需数据源来自许多分布的数据库,但实际操作数据只是涉及其中紧密相关的少量数据。这些数据又必须与中心数据库保持数据一致,这就带来数据一体化更新维护的困难。因此让互联网这片“云”成为每一个学习者的资料中心和计算中心,必须提供安全、快速、便捷的数据存储和网络计算服务,可见数据存储与网络计算一样在整个云体系中扮演着种要的角色。因此在大数据运用中,快捷方便的云存储是实现有效云计算的关键。一般来讲,云存储一般包含两个含义:
(1)云存储是云计算的存储部分,即虚拟化的、易于扩展的存储资源池。用户通过云计算使用存储资源池:
(2)云存储指作为一种服务,通过开放互联网接口,使得第三方网站可以通过云存储提供的服务为用户提供完整的Web服务,包括用户直接使用存储相关的在线服务。
尽管大数据时代的云存储和云计算为网络学习创造了机会,目前的情况是,各网络学习系统和资源库多平台运行、数据库模式各不相同、用户的数据分散的,数据被割裂在不同的设备上、多方式种运行等弊端,不仅造成资源浪费重叠,同时也造成网络资源和数据无法共享,平台之间信息交流和共享十分困难,以致形成信息孤岛,这些阻碍了云计算环境下网络学习的进一步开展。
1.数据的多源异构性
专家发现,互联网中以关系数据库的方式存在的数据只占全部数据的10%,许多数据分布的形式如文件系统、数据库系统、分布在Web中的数据等等,网络中存在着各种分布式具有异构性的数据源。
所谓的异构数据是指在数据管理和访问中存在的异构性问题,如系统异构、数据源异构、语义异构等。多源异构数据产生原因及表现形式主要有以下几点:
(1)系统异构性,即数据源所依赖的业务应用系统、数据库管理系统乃至操作系统之间的不同构成了系统异构。
(2)模式异构性,即数据源在存储模式上的不同。目前数据存储模式以关系模式为主,此外还有对象模式、对象关系模式和文档嵌套模式等几种,不同的模式在结构上存在着差异,即便是同一类存储模式,模式结构可能也存在着差异。例如不同的关系数据管理系统的数据类型等方面并不是完全一致的,如DB2、Oracle、Sybase、Informix、SQL Server、Foxpro等。
(3)数据来源和存储结构多样性。数据源异构是指数据来源不仅是结构化的数据,还包括半结构化和非结构化的数据,如XML文档和图片等数据。此外数据获取方式多样性也会造成内部数据源和外部数据源之间的异构,此外,存储媒介的不同也会造成数据在存储结构表现形式上呈现多样性特征。
(4)多语义性,研究对象的多种类型决定了数据的多语义性。在现实世界中,即是相同的业务对象在侧重不同问题的重点时,往往会导致语义多样性。如相同概念用不同的词汇来表示,如同一个属性,有的系统中定义为姓名、有的定义为名字:相同数据资源结构不同,如有的系统中姓名保存为一个字段,有的系统中姓、名分为两个字段;语义的异构可能会引起表冲突、值冲突、属性冲突等问题。
(5)多时空性和多尺度性,有些数据具有较强的时空特性,一些数据源可能是不同时间和不同空间的数据集成。
2.物联网技术崛起对异构数据采集的挑战
传统的基于互联网资料查找和分析的学习中,往往存在着因学生过度依赖网络资源而造成的独立思考不完全、科学探究不充分和证据获取不可靠等问题,因此无法达到通过探究性学习培养良好科学素养和创新精神的最终目标。而物联网技术通过采用技术手段唯
一标识探究对象、以无线传感器感知探究对象、通过社交网络分享和讨论探究对象变化细节等环节,可以更好地感知世界,从而完成探究性学习的目标。
物联网是在任何时间,任何地点,任何互联网络上,通过Web应用程序转移和对更广泛的数据的集成,为用户提供无障碍服务的概念。伴随着物联网应用及其关键技术的不断涌现,物联网数据采集的感知设备种类、用户终端的种类日益繁多,用户与平台的交互模式也日益丰富。
由于云存储系统是基于互联网技术而生,都是以小图片流、小视频流等小文件数据为主要存储对象。但在物联网中,需要对海量的图片流及视频流等数据进行反复的存取,因此物联网中数据异构型体现在以下几个方面:
(1)各个独立的数据源具有不同的获取方式,且分布在不同地理位置的,具有自治性。
(2)这些数据源在存储模式、结构和意义上存在巨大差异。由于物联网业务平台中各种传感器网络日益增多,如掌上电脑、智能手机等等,且各种传感网提供不同格式的数据。但是目前没有统一定义的格式标准,不同厂家传感器收集的数据格式不尽相同。同时每个数据源即使用于相同的应用领域,也既存在结构化数据,也有半结构化数据,不同的存储模式,其结构的差异也很大。因此必须随时根据各个数据包的不同格式,解决语义和语法上的差异性,然后再集成并融合数据源。
(3)数据源不仅是海量的,而且常常是实时的和动态的。因此,收集所有数据到一个集中的位置来分析变得非常困难。
由此可以看出,物联网数据异构性问题更加突出,问题更为复杂,对其产生的海量异构数据造成的信息冗余进行及时的处理变得尤为关键。
三、关键技术和策略
可见,云计算时代,由于各种原因造成的网络学习平台中存在的数据异构对用户的数据存储和计算造成极大不便。
一方面,由于包括物联网在内大量新技术的采用,导致数据来源不同,数据表达方式多样:其次,各个信息管理系统相对独立运行,致使不同网络教学平台数据更新不一致。这样,针对同一信息的查询就出现了差异,难以确保信息的准确性,从而导致信息的有效性受到影响。
另一方面,信息共享困难。由于各网络学习平台的物理相对独立性、数据库系统的不一致、没有统一的数字接口等诸多因素,使得各网络学习系统之间不能实现信息的共享。
数据实时采集、处理及融合的目的就是针对各种分布异构的信息系统中的数据信息进行抽取、转换与融合,建立一个稳定的集成环境,为用户提供统一信息存取接口。如果不能将异构数据源中的冗余数据进行完整、正确、实时处理,不仅仅浪费了大量学习资源,还导致用户多样性、个性化学习需求无法得到满足。
1.系统构成
集成后的异构数据对学习者来说是统一的和无差异的,它为用户提供统一的访问数据源访问接口,执行用户的访问请求,透明有效地对数据进行操作,进而实现全面的数据共享需求实现数据集成的系统称为数据集成系统,
因此异构数据共享系统的建设,关键在于共享平台的建设。数据共享平台架构由数据层、数据服务层和应用层组成。如图1所示:
数据层包括异构的各种数据源,数据服务层提供各种数据服务,应用层则包括浏览器、业务系统和第三方系统等。
拥有数据资源的部门或个人可以往平台上提交自己的数据资源,需要数据资源的一方可以到该平台上挑选自己需要的数据,包括如下部分:
(1)数据层:这个库用来收集并存放用户的共享数据,包括小型的文件数据和结构化数据,大型文件数据存放在数据拥有者的机器里。
(2)数据服务层,即数据统一服务系统,是该平台的核心,包括三个主要部分:
元数据库:其任务是通过数据采集服务,将底层数据资源的描述信息注册到平台中形成元数据库,用来存放用户的共享数据的元数据。内容对所有部门和个人开放,需要数据的人在这个库里进行信息检索。
数据统一规范系统:为了保证提交数据是有效的,还承担着对提交共享数据的用户,检查数据的完整性和合法性的任务。该系统包括服务器、数据检查软件。
安全控制系统:为了保障共享数据和元数据的安全,需要建设相应的保障体系。保障体系包括硬件设备和制度措施。
(3)应用层则包括浏览器、业务系统和第三方系统等。
2.相关理论和关键技术
随着学习者的需要,特别是多媒体技术的广泛采用,在学习过程中需要把电子邮件、多媒体文件、附件等等都包含在一个系统中,以减少系统的重复投资。在以前的数据库中,一直强调数据的标准化。在以前,数据库主要管理的是结构化的数据,数据是以行与列的二维形式进行存储。若需要实现三维数据,如数据仓库等等,都要根据一定的规则对数据库进行叠加才能够完成。
因此解决异构数据,最突出的表现就是完成从二维表存储方式到多维数组的存储方式的转变。采用多维数组技术,不但可以把语音文件等异构数据存入到数据库中,而且数据库管理员可以利用SQL语句,像管理同构数据那样,对多媒体文件、附件等异构数据进行操作,使得异构数据能够像结构化数据那样进行管理、查询等包括新建、删除、更新等等。
当前大数据处理系统不管结构如何复杂,采用的技术如何千差万别,但是总体上总可以分为以下的几个重要部分。如图2所示。
从图中的流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。由于当前绝大部分网络学习平台是基于关系数据库开发的,其关系数据库模型难以表达复杂的嵌套需要以及支持数据类型有限,因此研究者从数据模型入手而提出非结构化数据库。
(1)noSQL技术的崛起
与传统的关系数据库模型相比,非结构化数据库是全面基于因特网应用的新型数据库理论,它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构信息(重复数据和变长数据)中有着传统关系型数据库所无法比拟的优势。从应用角度主要分为操作型noSQL技术和分析型noSQL技术。
操作型(operational)noSQL技术:依据存储模型,操作型noSQL技术可划分成基于Key Value存储模型、基
于Column Family(列分组)存储模型、基于文档模型和基于图模型的noSQL数据库技术4类。其中值得一提的是,基于Graph存储的noSQL技术。众所周知,随着社交网络、科学研究(药物、蛋白质研究)以及其他应用领域不断发展的需要,更多的数据以图作为基础模型进行表达更为自然,而且这些数据的数据量是极其庞大的,比如,Facebook拥有超过8亿的用户,对这些用户的交互关系进行管理、分析是极大的挑战。这些分析不仅仅是根据一定的条件查找图的节点或者图的边,更为复杂的处理是在图的结构上进行分析,比如社区的发现等。
面向分析型应用的noSQL技术(MapReduce):面向分析型应用的noSQL技术主要包括MapReduce和Dryad。MapReduce技术是由Google公司提出来的,旨在解决大规模非结构化数据快速批量处理的并行技术框架。近几年来,MapReduce技术成为大数据分析的事实标准。MapReduce是一种用来处理数据的编程模型,用于并行处理大规模数据集,它将任务分成更多更细的子任务并且通过这些子任务在空闲的处理节点之间进行调度,快速处理数据,最后按照特定的规则,合并生成最终的结果,优势在于处理大量数据集。在Google,MapReduce用在非常广泛的应用程序中,包括“分布grep、分布排序、Web连接图反转、每台机器的词矢量、web访问日志分析、反向索引构建、文档聚类、机器学习、基于统计的机器翻译……”值得注意的是,MapReduce实现以后,它被用来重新生成Google的整个索引,并取代老的adhoc程序去更新索引。
(2)NoSQL的优势
易扩展:NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展,同时在架构的层面上带来了可扩展的能力。
大数据量,高性能:NoSQL数据库得益于它的无关系性,数据库的结构简单,具有非常高的读写性能,尤其在大数据量下,同样表现优秀。一般MySQL使用Query Cache,每次表的更新Cache就失效,是一种大粒度的Cache,在针对Web2,0的交互频繁的应用,Cache性能不高。而NoSQL的Cache是记录级的,是一种细粒度的Cache,所以较之关系数据库具有极高的性能。
灵活的数据模型:NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情,特别是非常大数据量的。这点在大数据量的Web2.0时代尤其明显。
高可用:NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如Cassandra、HBase模型,通过复制模型也能实现高可用。
3.异构数据的集成
集成是一种应用于异构数据源的集成方法,从整个异构数据交换平台来看,主要实现的是从一个数据库数据发布到另一个数据库数据订阅接收的一个流程,具体的可能是一对一、一对多或者多对一的情况,例如Sql 2005采用复制功能将数据或数据库对象从一个数据库复制和分发到另外一个数据库,并进行数据同步,从而使源数据库和目标数据库保持一致。目前异构数据集成主要有三种方法,即数据的表示及格式转换、数据互操作和直接数据访问模式。
(1)数据的表示及格式转换
数据格式转换就是将其他格式的数据文件转换成当前应用的数据格式,并保存到当前软件数据库。许多软件为了实现数据与其他软件共享,特别提供了明码交换格式,但是由于缺乏对象的统一描述方法,转换后的数据不能完全准确地表达原数据的信息,易造成属性信息丢失,也就无法直观地展现出大数据本身的意义。而在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联关系时,可能会落入固有的偏见之中。因此要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。
(2)数据互操作方法
互操作本义是指系统间的兼容性,如今其外延已扩展为数据的集成,即异构数据在传输中可达到共同的语义理解,可整合为一个整体对外提供服务;与服务的集成,指异构的程序及软件模块间可进行透明的交互。当前信息技术领域从不同层面不同角度对互操作技术展开了深入研究,有基于格式转换的跨库检索技术、数据仓库与数据挖掘,基于协议的Z39.50、OAI、Webservices等。而最近兴起的OpenGISConsortium(OGC)是一种新的数据共享规范,可在异构数据库和分布计算的情况下,帮助用户相互理解并能透明地获取所需的信息。其工作流程是通过数据服务器相应数据客户的请求,向数据客户提供服务,最终数据客户能够读懂任意数据服务器提供的空间数据,当然这些数据服务器提供的数据是基于OGC规范的。但是目前非OGC规范的空间数据占据已有空间数据的主题,数据互操作方法在数据集成上还存在一定的局限性。
(3)直接数据访问
直接数据访问指的是在软件中实现对其他格式的数据的直接读取和操作,该方法对用户要求较高,需要使用者熟悉宿主软件格式并编写相对应数据的数据引擎。微软在2005年推出Microsoft数据访问组件(MDAC),通过Microsoft数据访问组件(MDAC),开发人员可以连接到种类繁多的关系和非关系数据源,并且使用这些数据源中的数据。用户还使用AcfiveX Data Obiects(ADO)、开放式数据库连接(ODBC)或OLE DB连接到很多个不同的数据源通过由Microsoft生成和交付或者由各种第三方开发的提供程序和驱动程序完成该操作。通过当前的MDAC体系结构,客户端一服务器应用程序、n层应用程序或Web浏览器应用程序可以访问SQL、半结构化存储和旧式数据存储区。另外,通过MDAC(并根据不同的需求),这些应用程序可以使用ADO、OLE DB或ODBC灵活地访问数据。
此外,大数据的获取、通信、存储、管理与分析处理都需要消耗大量的能源。在能源问题日益突出的今天,研究创新的数据处理和传送的节能方法与技术是重要的研究方向。
四、结语
正如黎加厚教授所言:不远的将来,随着“云计算”的发展,为实现全球数据信息提供机会。但是当前开发平台、工具的异构性和紧耦合性导致了大量的教育资源系统之间不能互联互通、资源共享与软件复用,
“信息孤岛”现象依然普遍存在。
值得一提的是,当前关于大数据研究很大程度上集中在以“云计算”为核心的相关计算机技术与软件的开发上,在如何把“大数据研究”应用于实际的学科领域,或者说如何指导网络学习和教学实践工作应对“大数据环境”的研究,还有待于进一步探讨。