点击查看【bilibili】

1.1 大数据的概念及特点

“大数据”一词的出现,是在1980年由著名未来学家阿尔文·托夫勒编著的《第三次浪潮》一书,并将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据(big data,mega data)也称巨量资料,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
从这一定义来看,大数据的特点可以总结为4个V,即体量巨大(volume)、类型多样(variety)、处理快速(velocity)和价值巨大但密度很低(value)。同时,这种4V定义也得到了广泛的认同,因其指出了大数据最为核心的问题,就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘价值。
1. 数据体量巨大
大数据首要特征体现为“量大”,存储单位从GB到TB,直至PB、EB。数据的海量化和快增长特征是大数据对储存技术提出的首要挑战,要求底层硬件架构和文件系统性价比要大大高于传统技术,并能弹性扩展储存容量。
2. 数据类型多样
丰富数据来源导致大数据的形式多样性,大数据大体分为三类,一是结构化数据,如教育系统数据、金融系统数据、交通系统数据等,该类数据特点是数据间因果关系强。二是非结构化数据,如视频、图片、音频等,该数据特点是数据间没有因果关系,三是半结构化数据,如XML文档、邮件、微博等,该类数据特点是数据间的因果关系弱。
3. 处理速度快
大数据对处理数据响应速度有严格要求,处理速度快,需对数据实时分析数据输入处理几乎要求无延迟。
4. 价值密度低
原始数据价值密度低,经过采集、清洗、挖掘、分析之后,具有较高的商用价值。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
大数据本质上是多个信息系统产生的数据汇聚、融合。近年来,业界对大数据的解读越来越全面,对大数据的基本特征也扩展到了5V、7V、甚至11V特征.扩充了真实性(veracilv)、有效性(validilv)、易变性(variabilily)、存活性(viabiIilv)、波动性(volalililv)、可见性(visibilitv)、可视性(visualization))等新维度。当前我国大数据发展已进入到以数据深度挖掘、融合应用为特点的智能化阶段,大数据价值和意义正在凸显。

1.2 大数据处理的一般过程

目前,随着大数据领域被广泛关注,大量新的技术已经开始涌现出来,而这些技术将成为或者已经成为大数据采集、存储、分析、表现的重要工具。从数据在信息系统中的生命周期看,大数据从数据源经过分析,挖掘到最终获得价值一般需经过数据采集、数据储存与管理、计算及数据分析、数据展现等主要环节。图1-1展现了如何将大量的数据最终转化成为有价值应用的一般步骤。基本囊括了大数据的应用领域。
image.png
图1-1 大数据产业链生态图
1. 大数据的采集
在数据存储和处理前,需清洗、整理数据、传统数据处理体系称为ETL(Extracting Transforming Loading)过程大,数据来源丰富多样,包括企业内部数据、互联网数据、物联网数据,数量庞大、格式不一、良莠不齐。这要求数据准备环节要规范格式,便于后续存储管理;在尽可能保留原有语义情况下去粗取精,消除噪声。
2. 海量数据存储
当前全球数据量正以每年超过50%速度增长,储存技术成本和性能面临非常大的压力,大数据储存系统需以极低成本存储海量数据,适应多样化的非结构化数据管理需求,数据格式具备可扩展性。
3. 数据分析及挖掘
(1)计算处理,需根据处理数据类型和分析目标,采用适当算法模型。快速处理数据。海量数据处理消耗大量计算资源,分而治之的分布实计算成为大数据主流计算框架,一些特定场景下的实时性需大幅提升。
(2)数据分析,需从纷繁复杂数据中发掘规律。提取新知识,是大数据价值挖掘关键。传统数据挖掘对象多是结构化、单一对象小数集,挖掘更侧重根据先验知识预先人工建立模型,然后依据模型进行分析。对于非结构化,多源异构大数据集分析,很难建立显示数学模型,需发展更智能数据挖掘技术。
4. 数据的呈现与应用
在大数据服务于决策支撑场景下,将分析结果直观呈现给用户,是大数据分析重要环节。在嵌入多业务闭环大数据应用中,一般由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节必非必要环节。

1.3 大数据的应用现状

近年来,在全球经济数字化浪潮的带动下,我国大数据与各行各业的融合应用不断拓展。大数据企业正在尝到与实体经济融合发展带来的“甜头”。随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据行业带来的益处和价值正在日益显现。然而,目前我国在大数据与实体经济融合领域整体上还处于发展初期。相对于发达国家,在融合行业数量、融合应用深度、融合业务规模、融合发展均衡性等方面还有一定差距。主要特点包括:业务类型不均衡、是地域分布不均衡、行业分布不均衡。
但不可否认的是,我国在大数据领域前期的系统部署成果斐然。在党中央的领导下,在产业界各界的共同努力下,大数据在制造业、农业、服务业等实体经济的各领域应用中不断深入,涌现出了一大批大数据应用典型,加速各行业数字化、网络化、智能化进程,促进产业格局重构,驱动生产方式和管理模式变革。图1-2展示了我国大数据的应用场景及相关企业。
image.png
图 1-2我国大数据应用场景图
1. 大数据+农业
大数据在农业农村发展工作中具有重要意义,具有广泛的应用领域和巨大的潜力,有力支撑和服务农业现代化。
2018年,山东莱西市启动建设的市农业大数据中心平台,通过和布瑞克农信集团合作,着力打造农业大数据平台、大宗农产品交易平台和跨境电商产业平台,形成以农业大数据为核心的县域智慧农业生态圈,农业大数据中心将农业农村的各项数据整合、调研、监测后,再与全国乃至全球的涉农产业数据、科技数据、市场数据交叉对比,实现政府、市场生产之间涉农数据互通共享、监测预警,通过大数据应用撬动产业创新,为产业合理规划和营销渠道扩展提供决策支持,为莱西现代农业发展提供强有力的科技支撑。使农业高质量发展有了“晴雨表”。平台整合全市所有涉农数据,接入全国的市场数据,可以帮助种养殖户,进行市场价格预判,指导,科学合理地从事生产,有效规避风险。
2. 大数据+教育
2018年4月,教育部发布的《教育信息化2.0行动计划》提出,利用大数据技术,实现教育大资源共享,保障教育管理、决策和公共服务,提高教育管理信息化水平,推进教育政务信息系统整合共享。
2017年10月,温州市正式启动实施“151”工程,高位提升教育信息化整体水平,以大数据驱动教育现代化。
(1)“1”是建设一个教育大数据中心。坚持“区域联动、部门协同、分级建设、整体贯通”的原则,以数据汇聚共享和应用系统整合为重点,打造城乡共享的教育大数据服务平台。
(2)“5”是构建五大教育数据应用体系,包括现代教育管理体系、教育评价体系、教育学应用体系、教师发展管理体系、未来教育生态体系。
(3)“1”是打造一个泛在网络环境支撑。适度超前实施教育信息化基础建设,有线和无线网络综合布线覆盖所有教育场所,形成未来教育网络支撑体系。
3. 大数据+政务
贵州大数据助力政府治理。
(1)搭建云上贵州系统平台。率先探索一体化数据中心建设,将分散的政府数据统筹汇聚,建成云上贵州系统平台,深入开展“迁云”专项行动和政府数据资产登记,逐步把分散、独立的信息系统整合迁移到平台上。
(2)搭建数据共享交换平台。自主开发了贵州省数据共享交换平台,建成人口、法人、宏观经济、空间地理四大基础库和健康卫生、社会保障、食品安全、公共信用、城乡建设、生态环保六个主题库,形成全省政府数据共享资源池。
(3)搭建政府数据开放平台,贵州省政府数据开放平台成为全国首个省级政府数据开放平台。

1.4 大数据发展趋势

1. 逐步建立数据要素市场,打破数据孤岛
加快推动数据确权机制和相关法律法规的落地,数据作为生产要素的重大理论创新功不可没;因此,我国将有望在全球范围内率先建成公平合理的数据要素市场,数据的交易和流通将会呈现井喷式的增长,迎来快速发展期,数据要素将实现价格由市场决定,报酬按贡献决定的新局面。同时,如果同态加密、差分隐私、多方安全计算、零知识证明技术如能进一步取得突破,数据共享和流通将有望再前进一大步。
2. 突破并融合理论和技术,深化数据应用
大数据与云计算、人工智能、物联网等新技术有着密不可分的天然联系,围绕数据分析,利用的多技术融合创新将进一步深化。同时,鼓励大数据技术企业不断提升大数据平台和应用的可用性和操作便捷程度,优先支持面向传统企业的产品、服务和解决方案的开发,简化大数据底层繁琐复杂的技术,将加深业务与数据的融合,数据驱动的新模式、新业态更值得期待 。
3. 开放释放政府数据红利,推动数据治理
我国政府将率先垂范,持续深入推进政务信息系统整合共享、“互联网+政务服务”及数字政府创新发展,政府、部门和地方之间的数据藩篱将被逐渐打破,政府数据共享及公共数据开放取得实质性进展,释放数据红利推动数字经济创新发展。
4. 实施监管数据要素市场,保障网络安全
数据安全是大数据发展的底线。数据要素的重要性将进一步凸显数据安全治理的迫切性,传统的通过技术安全防护免受外部入侵攻击的数据安全防护理念将被以数据要素安全应用、有序流通为主要目的数据安全治理理念取代,主动适应并努力引领新变化,加强政策、监管与法律的统筹协调,动态优化政策法规