假大空概念
源自某度百科:
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
个人局限见解
针对大数据技术、工作内容的理解:
通过一定的数据采集、清洗、处理、分析工具、收集并获取海量数据,利用Java、Scala、Python、SQL等语言进行复杂的分布式运算,最终对已产生数据进行复盘统计分析、对未来可能产生的结果数据进行预测的手段。
这是一个粗浅的解释,大数据的目的并非是监测一言一行、窥探个人的隐私、最主要的是通过对于个体信息的采集与分析,监控相关行业的稳定性,规避风险,推动新业务发展,造福人类。
大数据就业概览
以360为例,面向薪资学习 hh

职位描述如上:
分析如下
1.开源组件的离线/存储分析系统 ->Hadoop、Hive、Spark、Flink、HBase、Impala
2.大数据分析体系构建 -> 数仓模型思维
3.数据敏感,挖掘有价值信息-> 基本的数据分析能力、数据挖掘能力
4.代码的相关性要求-> 从评审设计到开发复盘整理的一系列元素
职位要求:
1.相关行业经验,入行时应该带着深挖行业经验的心态去学习,比如车联网相关,要对实时数据处理分析非常了解、代表公司滴滴、T3等,金融行业,投行,银行业,要了解相关金融知识,比如风控,贷前,贷后,资产质量评估等等。
2.编程基础:推荐Java为主、SQL为辅,大部分组件都是Java开发的,了解Java语言非常重要、同时因为大数据很多打包发布处理都要在Linux上操作、所以基本的Linux命令和Shell相关的内容也需要了解。
3.组件框架:Hadoop、Flink、Spark、kafka、针对离线数仓相关,对SQL要求比较高,针对实时数据,对Flink要求比较高,大多复杂场景需要深度理解框架,修改框架,进行二次开发,代表:网易猛犸大数据平台,华为鲲鹏大数据平台,星环TDH大数据平台。
4.数据治理思维:业务产生的数据可能并没有一定的数据分类规则,治理工程师就需要去归纳总结一定的治理规范,结合公司场景制定相关的数据治理标准,如开发脚本的命名,表命名,分组命名,定时任务命名规范,开发要求,等等。
5.沟通能力:非常重要,这一点,光会Coding、不会沟通等于闲的,技术人最终的出路是解决业务难题,更深层次的了解业务,结合业务,螺旋式上升提升技术才是长久之道,这不代表你不对技术做太高的要求,相反,能够结合业务本身去理解,做出更多提升效能,转化经济价值的软件与内容才能走的更远。所以沟通能力非常重要,沟通是你了解业务,深挖业务的前提,良好的沟通能力可以建立好小组工作之间的氛围,有效地沟通可以极大地提升效率。
学习方向
前置内容
计算机基础
科班内容:跟课巩固基础内容,四大项:数据结构、计组、操作系统、网络
非科班内容:a.计算机网络:OSI七层模型、TCP/IP五层模型 b.数据结构:数组、栈、队列、链表、树、图 c.操作系统:进程、线程、IO、调度、内存管理
职位选择
首先明确一点:大数据涉及的知识面广度还是有的,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。
方向1:数据仓库工程师
数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓,实时数仓是未来趋势和方向。
基础技能:SQL
框架内容:Hadoop、Kafka、Flink、HBase、Hive、Oozie/Airflow/Azkaban
岗位特殊内容:离线数仓范式、基本的维度建模规范,事实表模型
参考书籍:
《Hive编程指南》、《基于Hadoop构建数据仓库实践》、《HBase权威指南》、《MySQL入门很简单》
方向2:大数据开发工程师
大数据开发需要有良好的Java后端开发能力以及不错的源码阅读能力
基础技能:Java、Scala、Python、Linux命令、shell编程、SQL能力
框架内容:Hadoop、Kafka、Flink、HBase、Hive、Spark、Oozie/Airflow/Azkaban
岗位特殊内容:组件二次开发、组件源码阅读能力、应用代码处理数据的能力
参考书籍:
《Kafka权威指南》、《HBase权威指南》、《Spark快速大数据分析》、《Apache Kylin权威指南》
方向3:ETL工程师
ETL:数据抽取、转换、加载
ETL工作属于业务与数据的交点、需要处理上下游的关系,首先,需要对业务层面非常熟悉,其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。
基础技能:SQL、Linux基本命令
框架内容:Hive、Kettle、HDFS、Oozie、Flume、Sqoop、DataX
岗位特殊内容:数据迁移能力、任务调度能力、数据业务能力
方向4:数据治理工程师(国企岗位居多)
数据治理的工作内容主要是对数据进行分类处理、指标整理、熟悉业务流程。
基础技能:SQL、Excel、Java
框架技能:不同企业不同的数据平台
框架学习:方向1-方向3所有内容
岗位特殊内容:数据治理标准梳理,元数据管理能力。
学习顺序
Java se ->计算机基础课->基本算法->Linux基础命令->MySQL->maven->Springboot->Hadoop->zookeeper->Hive->Flume/sqoop/dataX->Oozie/Azkaban/Airflow->hbase->redis->kafka->elk->scala->spark->kylin->flink->数仓项目/大数据开发项目/可视化项目/推荐系统
学历要求
1.大数据岗位这块,1-3年以及应届对学历卡的比较死,一般要求本科学历,部分挖掘岗位要求硕士学历,门槛相对较高,3-5年一般的要求限制就比较少,专科亦可。
2.在我看来,学历非常重要,如果有提升学历的机会,尽早提升,他是你职业发展的一个关键因素,起步不一样,不能总讲专科进阿里,985卖猪肉的故事,幸存者偏差本身很难发生在你自己身上,扪心自问,我们大多数人都是普通人,做好普通的事,比同龄人吃的饭更香一点,就要比同龄人努力10%-30%,想要超越同龄人,那必须付出200%的努力,跨越阶层的难度非常大,但程序员这行能让我们过的相对不错,至少比起大部分传统行业,还是要香很多的,体会过社会毒打的人,自然明白我说的,能把握校园时光就尽量把握,把所有的精力都投入到学习、实习、找工作、提升上,结果不会说谎。
3.最后提一句,别用战略上的勤奋来掩盖战术上的懒惰,没人逼你努力,差距就在不经意间拉开。前两天听到以前高中的室友,从华南理工回去重新高考、又考上山大,最后应届奋斗1年考上浙大的事情,觉得很励志,以前我和他都曾是高中班里佼佼者,只几年时间,就拉开了巨大差距,每天付出3小时,乘以365,乘以4,就代表了无限可能。
4.与各位共勉,希望我们都在这条路上走的更远。
