个人感受,自2019年起,各大互联网领域增势放缓,各家竞争逐渐从增量竞争转向存量竞争,如此大势之下,互联网行业的就业吸引力仍然不减,源源不绝的优秀人才挤入互联网,使得行业准入门槛逐渐提高。行业本身的成熟,也让人才需求更加明确,招聘岗位的前缀描述词更频繁地出现,一些“新岗位”似乎诞生。在我关注的范围内,最为突出的,就是“数据产品经理”岗位的出现。显然,数据产品经理所负责的软件产品有明显的“数据”特色,并以此区别于其他软件产品。

大家习惯将产品经理简称为产品,基本不会造成异议。但增加了“数据”帽子的产品经理,如果被简称为数据产品,则容易在行文中引发歧义,所以下文中的数据产品均指软件,而数据产品经理不会简称为数据产品。

数据产品经理岗位需求暴增的原因

数据类型的软件产品,此前也一直存在,那为什么业界对此类人才有了更多的需求?个人意见,有两大原因:

  • (1)中小互联网企业的数据平台建设。
    • 大型互联网公司通过强悍的业务运营能力和巨额的数据研发投入,打造了一个全新的时代,其跟随者们自然不愿意放过缝隙中的新机会。在这个所谓数据时代的环境里,数据资产受制于人,是管理者和投资人都不愿意看到的。不管是有真实的需要,比如采购的数据服务难以满足业务的需要、急需构建独立的人工智能研发能力、投资方要求核心数据避开某些厂商等等,还是出于政绩需求,比如通过占据资源的系统重构来获得更大的技术话语权、为迎合PPT工程搭建一些人工智能系统等等,数据平台的建设成为了大部分企业必须上马的重大工程。
  • (2)大厂数据产品的toB商业化。
    • 在互联网核心赛道人满为患,利润水平可预见地迎来下行,大型公司也希望为巨额的技术研发投入找到找到新的利润渠道。恰好又有不少非互联网企业也对引入新式数据能力产生兴趣,特别是 toG 业务的巨大订单金额。需求方和供给方不拍即和,各类数据产品的创业公司诞生,催生了新的数据人才需求。

至于数据产品经理、数据产品到底能为企业带来什么,这仍然是一个进行时的故事。虽然有各类“数据中台失败案例”,也有著名产品经理认为“数据产品经理就是一个笑话”的言论,各类故事和评论都不乏真知灼见,但我本人仍然对数据产品这一笼统大类的发展持审慎乐观的态度。至于具体的某一款产品,就必须就事论事地分析了。

数据产品的含义

不需多做讨论的是,数据产品经理必然是负责数据产品的产品经理。但各色各样的软件产品都似乎都把自己定义为数据产品,而又都声称自己的独特性。
2018_Big Data and AI landscape 2018_.png
2018_2018中国大数据产业图谱DTiii版2233家.pdf

为了完整地描绘数据相关软件的全景,也有一些 IT 咨询公司绘制了数据产业全景图,力求将各家公司各种软件分门别类。确实达成了不错的效果,却仍然留有遗憾。因为如果采取产业视角,则上下游企业、非技术型企业等等角色都会被纳入。还不如直接了当地,从数据工作自身出发,为数据产品软件下一个定义:

任何为满足数据采集、数据传输、数据存储、数据处理(数据清洗)、数据查询、数据可视化、数据分析、数据挖掘、数据管理等各类数据工作而研发的软件产品就是数据产品。他们往往按照用户的操作和要求,接受相应格式的数据作为输入,并输出满足用户期待的数据交付物。

数据交付物 Data Deliverables

为了更清楚地统一描述数据工作的产出成果,大约在 2018 年我私下编造了“数据交付物”这一概念。交付物,即可以作为最终产品直接交付需求方的工作产出物。

在完成的 word 文档名称末尾不断地添加“最终版”却怎么也无法交付“最终版”的事情,应该不少人都遇到过。工作成果到底是一份草稿,还是一份半成品,还是一份完成品,第一个判定者是作者自己。工作粗糙的人交付的产物可能比不上工作细致的人的半成品。但无论如何,当 一份工作成果,被作者正式地传递给需求方时,“交付”已经发生了。

大家一般会认为一份内容翔实、图文并茂、排版精美的 PPT 格式的数据分析报告才称得上完整的数据交付物,但此类文档交付物又称不上一个数据产品。但如果按产品的视角看看待“交付”,那么所有的交付件,都是数据产品。

一份 excel 格式的数据提取,工作认真的分析师会在注明字段含义、取数口径、注意事项之外,恰当地调整单元格格式,添加筛选项等,方便需求方能够“开箱即用”。倒也不是发挥“卷王精神”,实操角度讲,的确是害怕 excel 技能孱弱的需求方自己瞎做二次处理,得出错误结果也就算了,还要再次来找分析师“返工”。

制作过 BI 报表的分析师,应该更有体会。分析师们往往会仔细考虑如何排布数据图表,让图表和控件的布局能够自然地引导使用者思考数据的含义,乃至直接在 BI 上开展分析,而不是打开之后看看指标趋势,动动筛选器抄录一下数值就完事了。此时,一份单纯的可交互的报表,已经具备了软件的属性。对于 BI 工程师而言,2020到2021年突然火热一下的 low-code / no-code 说的不正是自己嘛?

上面说的是 GUI 交互界面的例子,对于 CUI 而言也是如此。awk、grep 等 shell 命令,Pandas、Matplotlib 等 package 的制作者定义的命令、函数等等,都是分析师们工作的交互界面。创造了这些广为使用的软件的程序员们,正是自己软件的产品经理。算法工程师们调参完毕后可供交付上线的算法模型,是数据交付物;数据新闻的记者们通过可视化工具制作了精美的数据可视化图形,也是数据交付物;ETL 工程师编写测试完毕后交付上线的 SQL 脚本,更是数据交付物。

而使得这些数据交付物得以产出的软件,就是数据产品。

数据产品的分类

数据产品的定义中本身就给出了分类,即按照软件在数据工作流程中发挥价值的那一步为该软件分类。不同从业人员给出的分类,各有差异,又可以说是大同小异。只要能为初入门者撇清浮云,都是成功的分类。

我会在《数据工具箱》中尝试给出各种推荐的好用的软件产品。

商用数据产品的前世今生

网友陈新涛在“三生万数”公众号中发布的《商用数据产品的前世今生》较好地总结了这一话题,受益匪浅,在此致谢。

文中提到:国外在商⽤数据产品上的分类上已经做得⾮常细致, 在数据链条的每个环节都有⼤量企业竞争, 导致整个⾏业分布⾮常碎⽚和⼴泛。 ⽽因为国内外的企业市场成熟度等⽅⾯的差异, 国内⽬前尚处于⾏业的起步阶段。