導讀

image.png
同学们可以带着这些问题去学习:
1. 大数据从什么地方来?这些数据有哪些特点?

  1. 大数据可以应用在哪些社会领域?

  2. 大数据面临哪些挑战?


大數據時代的挑戰與機遇

大數據時代

image.png
18世纪60年代,英国率先开展第一次工业革命,将世界带入蒸汽时代,英国也因此一举成为世界上第一个工业化国家,并带来了一系列社会变革;
• 19世纪中期,欧洲国家和美国、日本的资产阶级革命或改革的完成,促进了经济的发展。
19世纪60年代后期,开始第二次工业革命。以交流电的大规模使用为契机,人类进入了
“电气时代”。
• 第三次科技革命以原子能、电子计算机、空间技术和生物工程的发明和应用为主要标志,
涉及信息技术、新能源技术、新材料技术、生物技术、空间技术和海洋技术等诸多领域的
一场信息控制技术革命。美国正是在完成第三次工业革命,也就是信息化革命的过程中逐
渐稳固了世界霸主的地位。
• 第四次科技革命方兴未艾,一场围绕云、大、物、智等新兴IT技术的革命正在如火如荼的
展开,究竟谁能响应时代号召,成为时代的“弄潮儿”,正是我们值得思考的地方。

image.png
全球各主要经济体都已将数据开放作为国家战略,促进未来经济发展。中国在顶层设计上
已经开始布局大数据产业。

image.png
除了国家战略需求,面对数据化信息化的时代,经营者本身也需要进行一系列思维变革,
以响应时代的特点
• 在数据化的时代,我们不仅仅要成为数据的管理者,更是要成为数据的运营者,因为数据
驱动用户体验、数据驱动决策、数据驱动流程

image.png
在3V的基础上,业界对4V的定义加上了价值密度低(Value),而IBM对4V的定义加上了
真实准确(Veracity)。

大數據時代

  • Volume
  • Velocity
  • Variety
  • Value

• 目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据
的定义。

image.png

1.2 大數據應用領域

image.png

1.3 大數據計算模式

IO-Intensive IO 密集型任務

image.png

CPU - Intensive 計算密集型任務

Data - Intensive 數據密集型任務

Web应用:
无论是传统的搜索引擎还是新兴的Web 2.0应用,它们都是以海量数据为基础,
以数据处理为核心的互联网服务系统。为支持这些应用,系统需要存储、索引、备份海量
异构的Web页面、用户访问日志以及用户信息(Profile),并且还要保证对这些数据快速准
确的访问 。显然,这需要数据密集型计算系统的支持,因而WEB应用成为数据密集型计算
发源地。

• 软件即服务(Software as a Service, SaaS)应用:
SaaS通过提供公开的软件服务接口,使得用户能够在公共的平台上得到定制的软件功能,从而为用户节省了软硬件平台的购买和
维护费用,也为应用和服务整合提供了可能。由于用户的各类应用所涉及的数据具有海量、
异构、动态等特性,有效地管理和整合这些数据,并在保证数据安全和隐私的前提下提供
数据融合和互操作功能需要数据密集型计算系统的支持。

• 大型企业的商务智能应用:
大型企业往往在地理上是跨区域分布的,互联网提供了统一管
理和全局决策的平台。实现企业商务智能需要整合生产、销售、供应、服务、人事、财务
等一系列子系统。数据是整合的对象之一,更是实现商务智能的基础。由于这些系统中的
数据包括产品设计、生产过程以及计划、客户、订单、售前后服务等数据,除类型多样,
数量巨大外,结构也是复杂、异构的。数据密集型计算系统是实现跨区域企业商务智能的
支撑技术。

主要計算模式

  1. 批處理計算
  2. 流計算
  3. 圖計算
  4. 查詢分析計算

image.png

1.4 企業所面臨的挑戰和機遇


L01 Exercise

判断题:

  1. “大”是大数据的关键,大数据中一定包含有用价值!
    正确
    错误 正确

单选题:

  1. 以下哪个不是大数据时代新兴的技术:
    HBase
    Hadoop
    MySQL 正确
    Spark

  2. 第三次信息化浪潮的标志是:
    云计算、大数据、物联网技术的普及 正确
    个人电脑的普及
    互联网的普及
    虚拟现实技术的普及

多选题:

  1. 大数据的4V特性包括:
    数据量大
    数据类型繁多
    处理速度快
    价值密度低
    正确

5.(多选)下列对Hadoop各组件的理解正确的是:
Pig:处理大规模数据的脚本语言
Kafka:分布式发布订阅消息系统
Oozie:工作流和协作服务引擎
Tez:支持DAG作业的计算框架
不正确