数据智能路线图 - 数据分析和智能应用 - 《数据探索之旅：从理论到实践的研发笔记》

一. 从多个维度了解算法模型
三. 人才供给
- 数据分析/算法工程师的能力分级
- 人才背景和特点
四. 可能遇到的问题
五. 参考资料

数据如何产生价值？数据产生价值的形式有哪些？

探索性的数据分析，统计分析往往是由果推因，总结归纳的能力；

除了由果推因，发现问题，数据还有由因推果，推理演绎的能力，这里就涉及到算法、模型。

一. 从多个维度了解算法模型

数据领域

数据领域	细分领域	适用技术
结构化数据	结构化数据	机器学习，深度学习
非结构化数据	文本	深度学习
	图像视频
	音频

大部分的非结构化数据处理的思想都是降维并转化成结构化数据（向量，张量等）再进行算法训练。

模型学习方式

学习方式	解释
监督学习	标签给反馈来拟合
半/自监督学习	不是所有数据都有可信标签，部分或全部标签是训练得出的伪标签
无监督学习	没有标签，学习数据的内部知识
强化学习	环境实时给反馈
迁移学习	无监督学习的预训练+领域数据微调
对抗学习	用对抗模型修改数据，让模型识别不出

解决问题类别

问题类别	解释
分类	对图像，文本，行为模式等进行分类打标签，例如识别垃圾邮件
回归	预测趋势，例如股指预测，销量预测
聚类	无监督学习，将数据分成k类，例如恶意流量识别
关联	探索数据间的关联关系，例如沃尔玛超市啤酒尿布的关联关系，购物篮分析等
生成	大模型生成文本，图像等

后大模型时代，也要关注经典的算法，生成式大模型并不适合解决所有问题。

模型分类

模型大类	模型
线性模型	最小二乘法，岭回归，逻辑回归，贝叶斯回归，Lasso，随机梯度下降SGD
树模型	决策树，随机森林，lightGBM，XGBoost
其他模型	支持向量机SVM，KNN，Kmeans，朴素贝叶斯
神经网络模型	多层感知机，AlexNet，BERT，transformers，GPT

大部分的运筹学问题都是研究最优化的问题，这些能抽象成最优化问题的，大都可以BP神经网络等深度学习方法求解 神经网络的构成（pytorch/tensorflow包含这些算子，用于搭模型）： 全连接层，卷积层，池化层，激活函数，损失函数等 ## 二. 算法模型训练过程/AI ops ### 模型训练的过程 数据预处理，特征工程，数据分割，模型训练，交叉验证，参数调优，模型集成，训练完成【绝对干货】机器学习模型训练全流程！机器学习模型的集成方法总结：Bagging, Boosting, Stacking, Voting, Blending 一些例子：

经典结构化数据问题：机器学习实战进阶：泰坦尼克号乘客获救预测_天池notebook-阿里云天池

音频数据，通过声音识别东非鸟类：Inferring Birds with Kaggle Models

时序问题，预测卢旺达碳排放量：Rwanda CO2: Step by step guide

理论基础，算法，工具的交替演进

技术代际	1.0	2.0	3.0	4.0
理论基础	基于统计分析的机器学习	基于神经网络的深度学习	基于注意力机制的预训练模型	基于注意力机制的预训练大模型
算法	KNN，Kmeans，树模型，线性模型，SVM，贝叶斯	CNN，RNN，LSTM	BERT	GPT
工具	python+sklearn	python+pytorch/tensorflow	python+pytorch/tensorflow+transformers	python+pytorch/tensorflow+transformers
解决问题	结构化数据的回归，分类等问题	非结构化数据的识别，分类等问题	判别类问题：文本分类，实习识别，信息抽取	通用内容生成

说明

① python：编程语言，数据科学，数据分析领域的框架比较全，最常用的sklearn，pytorch，tensorflow，transformers等

② sklearn：scikit-learn的简称，最常用的机器学习算法包

③ R：类似python，但是专业领域用得多，软件行业用得很少

④ pytorch：深度学习框架

⑤ tensorflow：深度学习框架（维护性，可读性不如pytorch）

⑥ transformers：基于pytorch框架

⑦ BERT和GPT都是基于transformers

开发环境的特点

开发环境	特点
SPSS，SAS	上手门槛低，模型更新慢，无法应对大数据，离线分析为主，模型较难部署为服务
anaconda+python+notebook+sklearn	数据分析，机器学习技术栈
anaconda+python+notebook+pytorch/tensorflow+transformers	深度学习（NLP）技术栈
阿里pai/腾讯Ti/华为ModelArts/亚马逊SageMaker	高度集成化的一站式AI ops平台，其中阿里pai支持按量付费算法工程现状

三. 人才供给

数据分析/算法工程师的能力分级

等级	能力描述
其他	SPSS/SAS分析师，依赖软件，软件上前沿算法更新慢，无法应对大数据，离线分析为主，模型较难部署为服务
初级	python+sklearn等标准算法包调包侠
中级	能独立完成特征工程（前处理）和badcase处理（后处理），各种集成方法的成熟调包侠
高级	能用pytorch（行业标杆）/tensorflow（用的人最多，分1和2，问题也较多）/keras（最简单）拼神经网络模型，复现论文
资深	深入理解算法原理，紧跟前沿paper，能因地制宜地改进算法（对神经网络模型进行魔改），熟悉transformers，工作高度工程化自动化，能全面考虑算法的成本，收益和质量，能对接需求，能对接数据标注

人才背景和特点

来源	特点
人工智能应届生	理论能力强，工程能力稍弱
数据分析师/统计专业转算法	理论能力参差，工程能力很弱
商业分析转算法	工程能力和理论能力都不行
后端开发转算法	理论能力参差，工程能力强
大数据工程转算法	理论能力参差，工程能力参差

四. 可能遇到的问题

问题1：算法项目依赖数据质量，不一定保证效果

问题2：黑盒算法解释性低，出了问题较难给出改进建议

问题3：数据分析不具备自我造血能力

问题4：传统notebook形式不具有工程性，没有AI ops工具链，效率较低

问题5：会有一些数据标注，数据后处理，模型部署，接口开发工作

五. 参考资料

算法工程竞赛平台（含大量notebook和解决方案）

① Kaggle: Your Machine Learning and Data Science Community

② 天池大数据众智平台-阿里云天池

sklearn机器学习包

scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation

Huggingface模型社区

从transformers模型发展而来的预训练模型库Huggingface

Transformers，ChatGPT，BERT的关系

Transformer模型是如何应用到ChatGPT中的? - 知乎

NLP必读：十分钟读懂谷歌BERT模型