数据如何产生价值?数据产生价值的形式有哪些?

探索性的数据分析,统计分析往往是由果推因,总结归纳的能力;

除了由果推因,发现问题,数据还有由因推果,推理演绎的能力,这里就涉及到算法、模型。

一. 从多个维度了解算法模型

数据领域

数据领域 细分领域 适用技术
结构化数据 结构化数据 机器学习,深度学习
非结构化数据 文本 深度学习
图像视频
音频

大部分的非结构化数据处理的思想都是降维并转化成结构化数据(向量,张量等)再进行算法训练。

模型学习方式

学习方式 解释
监督学习 标签给反馈来拟合
半/自监督学习 不是所有数据都有可信标签,部分或全部标签是训练得出的伪标签
无监督学习 没有标签,学习数据的内部知识
强化学习 环境实时给反馈
迁移学习 无监督学习的预训练+领域数据微调
对抗学习 用对抗模型修改数据,让模型识别不出

解决问题类别

问题类别 解释
分类 对图像,文本,行为模式等进行分类打标签,例如识别垃圾邮件
回归 预测趋势,例如股指预测,销量预测
聚类 无监督学习,将数据分成k类,例如恶意流量识别
关联 探索数据间的关联关系,例如沃尔玛超市啤酒尿布的关联关系,购物篮分析等
生成 大模型生成文本,图像等

后大模型时代,也要关注经典的算法,生成式大模型并不适合解决所有问题。

模型分类

模型大类 模型
线性模型 最小二乘法,岭回归,逻辑回归,贝叶斯回归,Lasso,随机梯度下降SGD
树模型 决策树,随机森林,lightGBM,XGBoost
其他模型 支持向量机SVM,KNN,Kmeans,朴素贝叶斯
神经网络模型 多层感知机,AlexNet,BERT,transformers,GPT
大部分的运筹学问题都是研究最优化的问题,这些能抽象成最优化问题的,大都可以BP神经网络等深度学习方法求解 神经网络的构成(pytorch/tensorflow包含这些算子,用于搭模型): 全连接层,卷积层,池化层,激活函数,损失函数等 ## 二. 算法模型训练过程/AI ops ### 模型训练的过程 数据预处理,特征工程,数据分割,模型训练,交叉验证,参数调优,模型集成,训练完成 【绝对干货】机器学习模型训练全流程! 机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending 一些例子:

经典结构化数据问题:机器学习实战进阶:泰坦尼克号乘客获救预测_天池notebook-阿里云天池

音频数据,通过声音识别东非鸟类:Inferring Birds with Kaggle Models

时序问题,预测卢旺达碳排放量:Rwanda CO2: Step by step guide

理论基础,算法,工具的交替演进

技术代际 1.0 2.0 3.0 4.0
理论基础 基于统计分析的机器学习 基于神经网络的深度学习 基于注意力机制的预训练模型 基于注意力机制的预训练大模型
算法 KNN,Kmeans,树模型,线性模型,SVM,贝叶斯 CNN,RNN,LSTM BERT GPT
工具 python+sklearn python+pytorch/tensorflow python+pytorch/tensorflow+transformers python+pytorch/tensorflow+transformers
解决问题 结构化数据的回归,分类等问题 非结构化数据的识别,分类等问题 判别类问题:文本分类,实习识别,信息抽取 通用内容生成

说明

① python:编程语言,数据科学,数据分析领域的框架比较全,最常用的sklearn,pytorch,tensorflow,transformers等

② sklearn:scikit-learn的简称,最常用的机器学习算法包

③ R:类似python,但是专业领域用得多,软件行业用得很少

④ pytorch:深度学习框架

⑤ tensorflow:深度学习框架(维护性,可读性不如pytorch)

⑥ transformers:基于pytorch框架

⑦ BERT和GPT都是基于transformers

开发环境的特点

开发环境 特点
SPSS,SAS 上手门槛低,模型更新慢,无法应对大数据,离线分析为主,模型较难部署为服务
anaconda+python+notebook+sklearn 数据分析,机器学习技术栈
anaconda+python+notebook+pytorch/tensorflow+transformers 深度学习(NLP)技术栈
阿里pai/腾讯Ti/华为ModelArts/亚马逊SageMaker 高度集成化的一站式AI ops平台,其中阿里pai支持按量付费 算法工程现状

三. 人才供给

数据分析/算法工程师的能力分级

等级 能力描述
其他 SPSS/SAS分析师,依赖软件,软件上前沿算法更新慢,无法应对大数据,离线分析为主, 模型较难部署为服务
初级 python+sklearn等标准算法包调包侠
中级 能独立完成特征工程(前处理)和badcase处理(后处理),各种集成方法的成熟调包侠
高级 能用pytorch(行业标杆)/tensorflow(用的人最多,分1和2,问题也较多)/keras(最简单) 拼神经网络模型,复现论文
资深 深入理解算法原理,紧跟前沿paper,能因地制宜地改进算法(对神经网络模型进行魔改), 熟悉transformers,工作高度工程化自动化,能全面考虑算法的成本,收益和质量, 能对接需求,能对接数据标注

人才背景和特点

来源 特点
人工智能应届生 理论能力强,工程能力稍弱
数据分析师/统计专业转算法 理论能力参差,工程能力很弱
商业分析转算法 工程能力和理论能力都不行
后端开发转算法 理论能力参差,工程能力强
大数据工程转算法 理论能力参差,工程能力参差

四. 可能遇到的问题

问题1:算法项目依赖数据质量,不一定保证效果

问题2:黑盒算法解释性低,出了问题较难给出改进建议

问题3:数据分析不具备自我造血能力

问题4:传统notebook形式不具有工程性,没有AI ops工具链,效率较低

问题5:会有一些数据标注,数据后处理,模型部署,接口开发工作

五. 参考资料

算法工程竞赛平台(含大量notebook和解决方案)

Kaggle: Your Machine Learning and Data Science Community

天池大数据众智平台-阿里云天池

sklearn机器学习包

scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation

Huggingface模型社区

从transformers模型发展而来的预训练模型库Huggingface

Transformers,ChatGPT,BERT的关系

Transformer模型是如何应用到ChatGPT中的? - 知乎

NLP必读:十分钟读懂谷歌BERT模型