0x00 前言

最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据人该具备哪些通用的技能。

  • “数据开发到底用不用学算法?”
  • “Excel 有必要学吗?”
  • “数据产品经理需要了解技术吗?”

技能分为两部分:工具和知识。工具包括Excel、Sql 和 Python,知识包括大数据、统计学和机器学习相关知识。

0x01 Excel

掌握指数:5颗星
掌握人群:所有数据人
Excel 是每个数据人都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。不要以为只有搞大数据、深度学习这种才是有技术含量的工作,很多时候 Excel 能提供的功能,现在大部分大数据系统差的还远。特别是Excel的透视表和各种图,基本是数据分析必备。
只是从处理的数据量上来讲,一般配置的办公机,Excel 只能处理几十万行的数据。相对来讲是小数据量。

0x02 Sql

掌握指数:4.5颗星
掌握人群:所有数据人
从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢?答案是肯定的!
从使用数据的角度来讲,Sql 能力意味着产品和运营能够快速自己提取自己想要的数据,而不是全部都要等研发的排期。你的核心竞争力并不是 Sql ,但是 Sql 应该能帮你更有效的验证想法。居士身边大部分数据产品和数据运营都是或多或少会一些 Sql 的,至少这个比例在逐渐增加。
从设计数据系统的角度来讲,数据产品也应该掌握 Sql,如果一点 Sql 不懂,那么如何设计自助数据分析平台?如何设计更多的数据系统?

0x03 Python

掌握指数:4颗星
掌握人群:数据开发、数据仓库、数据分析、数据挖掘
Python,基本上是偏研发向岗位必备技能了,重要性毋庸置疑。这里只简单聊一下 Python 和 R 的选择。首先,居士支持 Python,这里无意评价哪个语言是好的,只想说明:

  1. 互联网公司用 Python 的更多,用 Python 工作更容易找到
  2. Python 可做的事情更多,除了数据分析,爬虫、脚本之类的任务都可以用 Python 完成,整个生态也很成熟
  3. 目前最流行的机器学习和深度学习相关的开源库都以 Python 为核心载体:sklearn、tensoflow!

至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。

0x04 大数据

掌握指数:4.5颗星
掌握人群:所有数据人
大数据时代,所有数据人都应该具备一定的大数据知识!因为大数据相关技术已经侵入了互联网行业的方方面面,传统行业也都逐渐往大数据靠拢。
不论是研发、产品亦或者运营,都应该对大数据有一些的基本的认知,比如统计学,以前可能是几万行的小数据做统计,那么当数据上亿甚至是百亿千亿之后,统计学的思路可能依旧不变,但是想要处理这些数据,就必须对大数据有所了解,要了解该怎么使用大数据的工具!
数据产品和运营亦是类似,只有了解大数据相关的一些知识,才能更好地和数据团队的各个工种站在同样的知识理解层面上对话。
注意:让产品来了解技术,并不是让产品自己做技术,而是了解一定的技术后,能够更顺畅地和研发做沟通。良好的沟通有时候能决定你是否能够顺利地开展项目。

0x05 统计学

掌握指数:4颗星掌握人群:所有数据人
统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?
居士是这样思考这个问题的,假设你是一名数据仓库同学,你的一个主要服务对象可能就是数据分析,那么,你是否了解你的使用方是如何使用你的数据的?如果你都不知道使用方是如何使用你的劳动成果的,那么,你提供的数据会很好用吗?
自省一下,工作前两年,居士做的很多数据表的设计,在现在看来基本没法用!因为当时根本不知道使用方是如何用自己的表,基本处于自嗨状态。

0x06 机器学习

掌握指数:4颗星
掌握人群:所有数据人
这里引用一部分 Japson在《ML/DL科普向:从Sklearn到TensorFlow》中提到的一句话:

再结合居士的观点:统计学相关知识、人工智能相关知识已经逐渐地成为了我们必备的基础技能。很多时候我们要跳出自己的眼界,从更高的角度来说,这些知识有助于我们更好的了解自己的数据,更加了解业务,从而提高自己的竞争力,打破自己的能力边界,来进行“错位竞争”。

整体的思路就是,数据开发、数据仓库亦或者是数据产品,该不该去学习机器学习?居士想表达是,该学!为什么?

  1. 你学习了新的知识,那么你的眼界将不再局限于自己技术的一个点上
  2. 你学了机器学习,那么你和机器学习出身的人一起比,你不具备优势,但是和同职业的人比起来,你就很容易脱颖而出
  3. 学了机器学习,能更好地为机器学习的同时提供更好的服务,自己的职业生涯也有更多的选择