1、什么是大数据

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

数据存储的最小基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

2、大数据的特点(4V+1O):

  1. 数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
  2. 类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
  3. 价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
  4. 增速快(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
  5. 数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。

3、大数据的经典案例

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

  在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

由这个故事,我们可以初探数据的魅力,通过简单的关联分析,我们从数据中发现隐藏其中的规律,从而帮助我们做出正确的决策。在这个快速发展的世界,成功通常意味着你做了什么正确的事。而通过数据的支持,我们能更好、更快地做出正确的决策,而这便是数据的真正价值所在。

大数据包含着更多的信息,而信息是可持续发展的基础,也是决策者进行成功规划的基础。如果没有合理的数据与信息,决策比猜想好不到哪儿去,并且很容易出错。经济与社会数据很多,也相对比较可靠与容易理解。环境数据与信息则要困难得多,综合、及时、高质量的环境信息依然非常稀缺,获取合适的信息不仅十分困难,而且代价也很大。

我们都知道股市有风险,因为股市中存在着大量的信息不对称。普通股民要花费很大的功夫才能搞清楚这家公司有没有投资价值,而上市公司高管尤其是大股东,非常清楚该公司能值几个钱。不仅高管比公众投资者更清楚公司的资产情况、竞争实力和行业地位等整体情况,而且高管也比普通投资者更清楚行业形势的变化和公司经营情况向好或向坏的趋势。因此高管常常在股价低迷时买进(增持),在股价有泡沫时则推出配股或增发股票的方案。普通股民常常在高管增持之后才敢认同股票的投资价值、在再融资方案推出之后才明白前期的炒作是非理性的,但行动总是比高管慢了一个节拍。高管利用信息优势,在投资本公司股票方面的绩效比公众投资者好很多。这清晰地向我们表明了信息对决策的重要性。

再回到大数据,如今的大数据主要记录了用户历史交互行为。用户通过各种交互行为,显式或隐式地表达了他们的喜好,他们想要的东西,他们讨厌的东西。可以说大数据中包含着各种有用信息,就看你能不能从各种数据噪音中提取出你想要的信息。如果我们成功地挖掘出用户行为背后的深层原因,那我们就能据此做出更好的决策,给用户带来更好的用户体验;再进一步,若我们能根据现有信息,推测出用户未来可能喜欢,但他们现在还未意识到的东西,做到比用户更加懂得他们本身的需求,那可以说我们已经牢牢把握住用户本身了。

4、大数据的组织架构

图片1.png

image.png

4、解决什么问题

提供海量数据的存储和计算分析方案,同时为AI和机器学习提供基本的训练素材。