因为,Google是大数据鼻祖。很多人提起大数据,必然会想起Google 的“三驾马车”(也称谷歌三宝):GFS、MapReduce、BigTable。正所谓三篇论文定大数据之江山,它激发了大数据技术开源时代的到来,百花齐放,争相斗艳,成就了Hadoop的辉煌十载。尤其是近年来,大数据技术的发展,不论是技术的迭代,还是生态圈的繁荣,都远超人们的想象。
当前大数据的数据量已达PB级别(1PB=1024TB),可以说是庞大无比。同时数据还有 结构化 (如数字、符号等)、 非结构化 (如文本、图像、声音、视频等)之分,兼具大量、复杂的特点,使得如何又快又好又便宜得进行大数据的存储,管理和处理变成一个亟待解决的问题。 于是 分布式计算 作为一种低成本的方案被提出来了。原理就是把一组计算机通过网络相互连接组成分散系统,尽管分散系统内的单个计算机的计算能力不强,但是每个计算机只计算一部分数据,多台计算机同时计算,最后将这些计算结果合并得到最终的结果。就整个分散系统而言,处理数据的速度远高于单个计算机,且比集中式计算的大型机要划算的多。 为什么是他们,这要从谷歌的三篇论文说起... 2003年到2004年间,Google发表了三篇技术论文,提出了一套分布式计算理论,分别是: 但由于Google没有开源,所以其他互联网公司根据Google三篇论文中提到的原理,对照MapReduce搭建了 Hadoop , 对照GFS搭建了 HDFS ,对照BigTable搭建了 HBase. 即:而 Spark 分布式计算是在Hadoop分布式计算的基础上进行的一些架构上的改良。目前也是Hadoop生态圈的成员之一。 Spark与Hadoop最大的不同点在于,Hadoop用 硬盘 存储数据,而Spark用 内存 存储数据,所以Spark能提供超过Hadoop100倍的运算速度。但因为内存断电后会丢失数据,所以Spark不能用于处理需要长期保存的数据。 Flink是目前唯一同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架。一般需要实时处理的场景都有他的身影,比如:实时智能推荐、实时复杂事件处理、实时欺诈检测、实时数仓与ETL、实时报表分析等 广义的Hadoop不再是单指一个分布式计算系统,而是一套生态系统。 那么,这套生态圈是如何产生的呢? 在有了Hadoop之类计算系统的基础上,人们希望用更友好的语言来做计算,于是产生了Hive、Pig、SparkSQL等。计算问题解决了,还能在什么地方进一步优化呢?于是人们想到给不同的任务分配资源,于是就有了Yarn、Oozie等。渐渐地,随着各种各样的工具出现,就慢慢演变成一个包含了文件系统、计算框架、调度系统的Hadoop大数据生态圈。 附:一些其他的组件示意 Kafka:是一种高吞吐量的分布式发布订阅消息系统,它可以处理各大网站或者App中用户的动作流数据。用户行为数据是后续进行业务分析和优化的重要数据资产,这些数据通常以处理日志和日志聚合的方式解决。 Kafka集群上的消息是有时效性的,可以对发布上来的消息设置一个过期时间,不管有没有被消费,超过过期时间的消息都会被清空。例如,如果过期时间设置为一周,那么消息发布上来一周内,它们都是可以被消费的,如果过了过期时间,这条消息就会被丢弃以释放更多空间。 Oozie:是一个工作流调度系统,统一管理工作流的调度顺序、安排任务的执行时间等,用来管理Hadoop的任务。Oozie集成了Hadoop的MapReduce、Pig、Hive等协议以及Java、Shell脚本等任务,底层仍然是一个MapReduce程序。 ZooKeeper:是Hadoop和HBase的重要组件,是一个分布式开放的应用程序协调服务,主要为应用提供配置维护、域名服务、分布式同步、组服务等一致性服务。 YARN:Hadoop生态有很多工具,为了保证这些工具有序地运行在同一个集群上,需要有一个调度系统进行协调指挥,YARN就是基于此背景诞生的资源统一管理平台。
Google公司三篇英文文献中的一个主要创新点就是大数据技术的发展和应用。Google公司三篇英文文献分别是《Google File System》、《Google Bigtable》和《Google Map Reduce》。其实描述的就是Google的三种技术,GFS分布式文件系统、Bigtable分布式数据存储系统、MapReduce编程模型,都是基于分布式并行运行的,部署在大量普通机器组成的集群之上。它们相互之间都有相似之处,也能协调在一起运行和工作,三篇文章的重要目的就是解决分布式并行计算的问题,这也为大数据技术的发展和应用提供了可能。
互联网时代的来临,简易的说是海量信息同极致数学计算融合的结果。除此以外是移动互联、物联网技术造成了大量的数据信息,互联网大数据建筑科学极致地解决了海量信息的搜集、储存、测算、剖析的难题。互联网时代打开人类社会运用数据价值的另一个时期。互联网大数据(BigData)又称之为大量材料,便是数据信息大、数据来源宽阔(系统日志、视频、声频),大到PB级别,目前的架构便是以便处理PB级别的数据信息;到目前为止,人们生产制造的全部印刷耗材的信息量也但是200PB;阿里巴巴、京东商城、苏宁易购基础都沉定了PB级别;等于一家BAT企业(百度搜索、阿里巴巴、腾迅)顶过去全部人们时期生产制造的包装印刷材料互联网大数据便是解决海量信息的,工作中便是储存,清理,查寻,导出来,必须SQL句子和编程工具脚本制作适用互联网大数据一般用于描述一个企业造就的很多非结构型和半非结构化数据,这种数据信息在免费下载到关联型数据库查询用以剖析时候花销过多时间和钱财。数据分析常和云计算技术联络到一起,由于即时的大中型数据剖析必须像MapReduce一样的架构来向数十、百余或乃至千余的电脑上分派工作中。依据《大数据时代》中常说,互联网大数据并不是一个准确的定义,大量的是一种将会的方法。“互联网大数据是大家在规模性数据信息的基本上能够保证的事儿,而这种事儿在小规模纳税人数据信息的基本上是没法进行的。互联网大数据是大家得到 新的认知能力、造就新的使用价值的原动力,互联网大数据还为更改销售市场“互联网大数据即一种新式的工作能力:以一种史无前例的方法,根据对海量信息开展剖析,得到 有极大使用价值的商品和服务项目,或刻骨铭心的洞悉。
154 浏览 5 回答
315 浏览 4 回答
301 浏览 6 回答
236 浏览 5 回答
184 浏览 3 回答
149 浏览 5 回答
116 浏览 4 回答
260 浏览 5 回答
351 浏览 4 回答
163 浏览 3 回答
103 浏览 3 回答
250 浏览 4 回答
360 浏览 3 回答
97 浏览 3 回答
355 浏览 5 回答
313 浏览 4 回答
140 浏览 7 回答
125 浏览 4 回答
266 浏览 1 回答
143 浏览 5 回答
265 浏览 3 回答
341 浏览 6 回答
355 浏览 3 回答
210 浏览 4 回答