大数据:难以用常规的数据库工具获取、存储、管理、分析的数据集合。
特征:
1、数据量大:起始单位是PB级的。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2、类型多:
结构化、板结构化、非结构化:网诺日志、音频、视频、图片、地理位置等信息混杂。
3、价值密度低:
获取数据的价值就像是淘金一般。
4、速度快时效高:
数据呈指数倍增长,时效性要求高,比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能的完成实时推荐。
5、永远在线:
大数据时代的数据是永远在线的,随时应用计算,这也是区别于传统的数据的最大特征。
分享一张图:
2008年被《自然》杂志专刊提出了BigData概念;
2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop);
2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。