最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
什么是大数据?都涉及到哪些技术?
大数据(Big Data)又称为巨量资料,就是数据大、数据来源广阔(日志、视频、音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据;截止目前,人类生产的所有印刷材料的数据量也不过200PB;阿里、京东、苏宁基本都沉淀了PB级别;相当于一家BAT公司(百度、阿里、腾讯)顶过去整个人类时代生产的印刷资料。
大数据就是处理海量数据的,工作就是存储,清洗,查询,导出,需要SQL语句和编程工具脚本支持。
大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。
_
大数据(big data又名mega data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
最初是由维克托·迈尔-舍恩伯格及肯尼斯·库克耶在其编写的《大数据时代》中提出。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
Hadoop是一个由Apache基金会所开发的分布式系统基础框架 专为离线和大规模数据分析而设计,HDFS作为核心的存储引擎,HBase为基于HDFS的开源数据库,MapReduce为Hadoop的查询引擎,用于大规模数据集的并行计算。
HDFS:分布式文件系统,有高容错性的特点,其功能类似于GFS/FastDFS。HBase:分布式的,面向列的开源数据库。类似于Redis。
Hive:基于hadoop的一个数据仓库工具,类似于MySQL,既可以存储表结构数据,又可以通过SQL来查询这些数据,只是不能进行修改,只能进行离线操作。
数据处理技术
MapReduce:面向大数据并行处理的计算模型、框架和平台。
Spark:专为大规模数据处理而设计的快速通用的计算引擎。
Storm/Flink:分布式流数据流引擎。
参考:
百度百科
大数据方面核心技术有哪些?
大数据技术栈详解
数据从何而来
粗始大数据平台:涉及到的技术;别人家大数据平台(腾讯/美团/58同城);数据的生命周期(收集/存储/处理/消费);数据+业务决定技术;从场景入手;
浅谈大数据时代:
大数据的特点-5V IBM提出
一、Volume大量:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
二、Variety多样:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
三、Value价值:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
四、Velocity高速:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
五、Veracity真实性:数据的准确性和可信赖度,即数据的质量。
参考链接:https://www.yuque.com/ibook/bigdata/txa65l
大数据的发展历程、现状和未来趋势?
大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期。
20世纪90年至21世纪初,为萌芽期,随着,一批商业智能工具和知识管理技术的开始和应用,度过了数据萌芽。
21世纪前十年则为成熟期,主要标志为,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行期道。
2010年以后,为大规模应用期,标志为,数据应用渗透各行各业,数据驱动决策,信息社会智能化程度快速提高。
中国大数据产业发展受宏观政策环境、技术进 步与升级、数字应用普及渗透等众多利好因素 的影响,2018年整体规模达到4384.5亿元,到 2021年将达8070.6亿元,持续促进传统产业转 型升级,激发经济增长活力,助力新型智慧城 市和数字经济建设。
十三届全国人大常委会专题讲座第十四讲 大数据:发展现状与未来趋势
细分行业及行业前三企业?
大数据行业标杆企业发展历程及业务模式?
如何合法合规地开展数据服务?
2019中国大数据产业发展白皮书.pdf
- 涉及到大数据的政策和标准。
- 大数据安全
- 金融大数据及应用
- 银行业:信贷风险评估/供应链金融
- 金融征信:信贷评估/大数据征信(身份识别/反欺诈/信用评估)
- 金融反欺诈:反欺诈服务
- 互联网金融:消费信贷/反欺诈/精准营销