大数据是高科技时代的产物。
一、大数据起源
- 大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,是大的数据量与现代化信息技术环境相结合涌现的结果;
- 特点:形式多元、数据组庞大、实时性;
二、对大数据的认知
- 定义(麦肯锡全球研究所):一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;
- 特征(麦肯锡全球研究所):海量的数据规模、快速的数据流转、多样的数据类型、价值密度低;
- 5V特征(IBM):Volume、Velocity、Value、Veracity、Variety
- 大数据的分类:结构化数据、非结构化数据、半结构化数据;
- 结构化数据:能够用数据或统一的结构加以表示的信息;
- 任何可以以固定格式存储、访问和处理的数据都被成为结构化数据;
- 示例:数字、符号等,如ERP、员工信息表;
- 非结构化数据:其字段长度可变、并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库;
- 可以处理结构化数据,更适合处理非结构化数据;
- 示例:很难转换为结构化数据、没有固定的格式,如全文文本,图像,声音,网页,影视,超媒体等信息;
- 半结构化数据:介于完全结构化数据和完全无结构的数据之间的数据;
- 特征:一般是自描述的,数据的结构和内容混在一起,没有明显的区分,但有一些不统一的结构化特征;
- 示例:XML、HTML文档;
- 说明:
- 完全结构化数据:如关系型数据库,面向对象数据库中的数据;
- 完全无结构的数据:如声音、图像文件等;
- 结构化数据:能够用数据或统一的结构加以表示的信息;
- 大数据的核心价值:预测;
- 其他价值:
- 逐渐成为重要的生产因素;
- 数据是真正有价值的资产;
- 战略意义:对数据进行专业化处理;
- 其他价值:
三、大数据的发展之路
最早提出“大数据”时代已到来——麦肯锡
1980年,阿尔文◎托夫勒《第三次浪潮》——第三次浪潮的华彩乐章
- 时间线:进入二十一世纪,大数据飚速发展;
- 2005年Hadoop项目诞生,后因技术高效性,被Apache Software Foundation公司引入成为开元应用;
- 2008年末,“大数据”得到部分美国知名计算机科学研究人员认可,《自然》杂志专刊提出BigData概念;
- 2009年,印度、联合国、美国和欧洲一些领先研究机构进一步研究“大数据”,引起高潮;
- 2010年,肯尼斯库克尔发表大数据专题报告,“大数据词汇诞生;
- 2011年,大数据能力量现、内容得到丰富,得到进一步发展;
- 2012年,美国第一家大数据软件公司上市、联合国出台大数据白皮书、阿里巴巴全面推进“数据分享平台”战略大数据价值得到进一步挖掘;
- 2015年,国务院正式印发《促进大数据发展行动纲要》,标志着大数据正式上升国家战略;
- 2016年,大数据“十三五”规划出台,推动大数据在工业研发、制造、产业链全流程及服务业的发展;
- 2017年1月,工信部发布了《大数据产业发展规划2016-2020年》,进一步明确了促进我国大数据产业发展的主要任务、重大工程和保障措施。
- 2017年10月,中共十九大报告指出:加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合。
- 大数据与信息技术深度融合:
- 云处理为大数据提供了弹性可扩展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已经和云计算技术深度融合。
- 各种各样的传感器,都是数据来源或者承载的方式;
- 大数据发展趋势:
- 大数据自助服务:为使用各类报表的部门提供自助式的报表服务,在基于大数据存储的基础上,提供大数据的统一查询服务平台。
- 特点:具有良好的可扩展性,可以快速满足不同数据查询、展现需求;
- 智能应用;
- 大数据自助服务:为使用各类报表的部门提供自助式的报表服务,在基于大数据存储的基础上,提供大数据的统一查询服务平台。
四、十大数据挖掘领域的经典算法
- C4.5算法:是机器学习算法中的一种分类决策树算法;
- K-Means算法:是一个聚类算法;
- SupportVectorMachine(支持向量机):是一种监督式学习的方法;
- Apriori算法:是一种最有影响的挖掘布尔关联规则频繁项集的算法;
- 最大期望(EM)算法:是在概率模型中寻找参数最大似然估计的算法;
- PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值;
- Adaboost算法:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器);
- K最近邻(KNN)分类算法:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别;
- 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;
- 分类与回归树(CART)在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
五、大数据的应用实践
- 未来大数据的主要应用领域
- 电商大数据:结合用户画像等进行精准营销;
- 金融行业:应用范围较广;
- 医疗行业:拥有大量的病例,病理报告,治愈方案,药物报告等;
- 交通大数据:合理进行道路规划;
- 教育大数据:因材施教,改善教育教学;
- 农牧渔领域,帮助农业降低菜贱伤农的概率;
- 安全执法:用于改善安全和执法,已经广泛应用;
- 大数据应用实例:京东大数据
- (数据金库)完整链条数据包括:
- 完整的用户来源数据:无论是百度搜索、社区搜索,还是移动QQ和京东自有客户端等记录;
- 完整的用户浏览购买数据:用户浏览习惯,用户对在线服务的要求和习惯,用户如何下单,用户购买频率及消费结构等;
- 完整的仓储配送数据:订单中的商品存储在仓库及所在货架的位置,如何按订单取货打包,如何选择配送方式及路线到达用户等;
- 完整的售后数据:如何提供售后服务,解决了什么问题等;
- 完整的供应链数据:京东的主力是自营,包括了采购、运输、进库存储等数据;
- 京东大数据的十大玩法:
- 玩法概述:
- 前端:用户画像、用户浏览与个性化推荐、用户售前、用户客服(JIMI,>50%的客服对话)
- 智慧卖场/用户惊喜(9分钟送货);
- 后端:减少拆单(最大相关性物品)、优化拣货路径(100多个小件仓库中,单品22→16秒)、高效配送;
- 京东大金融体系:京保贝(针对商户)、京东白条(针对消费者);
- 用户画像:从个人画像到家庭画像,再到社区(区域)画像;
- 用户浏览与个性化推荐:根据用户需求,在建立好画像的基础上,迅速通过个性化推荐系统,通过不同商品的位置及显示,让消费者看到中意的产品,促成最终产生购买;
- 用户售前:采用京东人工智能和深度学习团队开发的JIMI智能机器人,JIMI具备了深度神经网络的大脑和机器学习的大能力;
- 用户客服:同样使用JIMI智能机器人,目前,京东50%以上的客服对话来自JIMI,大大降低了成本,提升了满意度;
- 智慧卖场:针对不同用户群体和需求群体,打造出“智能卖场”产品,推荐个性化的选品和排序。
- 用户惊喜:例,利用个人画像和社区画像等,京东实现一旦用户下单,配送员就可以直接从配送站将货物送到用户手上,最快一单仅用4分钟,毫无疑问给用户带来了惊喜,提升了品牌;
- 减少拆单:京东在全国有200多个仓库,如果一个订单的货物分布在不同的仓库,就要拆单从不同的仓库配送,对京东增加成本,让用户为了一个单多次等待收货导致体验变差。京东通过大数据分析,找准了用户在购物过程中购买最大相关性的物品,极大地降低了拆单比例;
- 优化派送路径:双十一,拣货员因为要派用户订单,京东某些仓库的拣货员在的路程赶上了马拉松。京东通过大数据,优化了路径规划,使每一个拣货员能够行走最短的路产生最大的效益,目前在100多个中小件仓库中,拣货的单品耗时已经下降到10几秒;
- 高效配送:京东对在外进行配送与运输的大小车辆,经过大数据分析选择最佳配送路段,包括根据天气状况,重新部署路径等优化,提高车辆使用率,降低了空驶率。这些也构成了京东智慧物流的基础;
- 京东金融体系:
- 京保贝(针对商户):京东在给商户贷款过程中,同样能够迅速决定是否能够贷款,贷款的额度,保证在三分钟之内完成审批放款,让商户能够利用部分金融杠杆,促进商家在京东商城的运营和自身发展;
- 京东白条(针对消费者):京东白条通过大数据分析,让京东在保持一定安全系数之内,几分钟就决定给个体消费者贷款。
- 玩法概述:
- (数据金库)完整链条数据包括:
六、大数据技术介绍
- Spark
- Hadoop