数据如何产生价值?数据产生价值的形式有哪些?
探索性的数据分析,统计分析往往是由果推因,总结归纳的能力;
除了由果推因,发现问题,数据还有由因推果,推理演绎的能力,这里就涉及到算法、模型。
一. 从多个维度了解算法模型
数据领域
数据领域 | 细分领域 | 适用技术 |
---|---|---|
结构化数据 | 结构化数据 | 机器学习,深度学习 |
非结构化数据 | 文本 | 深度学习 |
图像视频 | ||
音频 |
大部分的非结构化数据处理的思想都是降维并转化成结构化数据(向量,张量等)再进行算法训练。
模型学习方式
学习方式 | 解释 |
---|---|
监督学习 | 标签给反馈来拟合 |
半/自监督学习 | 不是所有数据都有可信标签,部分或全部标签是训练得出的伪标签 |
无监督学习 | 没有标签,学习数据的内部知识 |
强化学习 | 环境实时给反馈 |
迁移学习 | 无监督学习的预训练+领域数据微调 |
对抗学习 | 用对抗模型修改数据,让模型识别不出 |
解决问题类别
问题类别 | 解释 |
---|---|
分类 | 对图像,文本,行为模式等进行分类打标签,例如识别垃圾邮件 |
回归 | 预测趋势,例如股指预测,销量预测 |
聚类 | 无监督学习,将数据分成k类,例如恶意流量识别 |
关联 | 探索数据间的关联关系,例如沃尔玛超市啤酒尿布的关联关系,购物篮分析等 |
生成 | 大模型生成文本,图像等 |
后大模型时代,也要关注经典的算法,生成式大模型并不适合解决所有问题。
模型分类
模型大类 | 模型 |
---|---|
线性模型 | 最小二乘法,岭回归,逻辑回归,贝叶斯回归,Lasso,随机梯度下降SGD |
树模型 | 决策树,随机森林,lightGBM,XGBoost |
其他模型 | 支持向量机SVM,KNN,Kmeans,朴素贝叶斯 |
神经网络模型 | 多层感知机,AlexNet,BERT,transformers,GPT |
经典结构化数据问题:机器学习实战进阶:泰坦尼克号乘客获救预测_天池notebook-阿里云天池
音频数据,通过声音识别东非鸟类:Inferring Birds with Kaggle Models
时序问题,预测卢旺达碳排放量:Rwanda CO2: Step by step guide
理论基础,算法,工具的交替演进
技术代际 | 1.0 | 2.0 | 3.0 | 4.0 |
---|---|---|---|---|
理论基础 | 基于统计分析的机器学习 | 基于神经网络的深度学习 | 基于注意力机制的预训练模型 | 基于注意力机制的预训练大模型 |
算法 | KNN,Kmeans,树模型,线性模型,SVM,贝叶斯 | CNN,RNN,LSTM | BERT | GPT |
工具 | python+sklearn | python+pytorch/tensorflow | python+pytorch/tensorflow+transformers | python+pytorch/tensorflow+transformers |
解决问题 | 结构化数据的回归,分类等问题 | 非结构化数据的识别,分类等问题 | 判别类问题:文本分类,实习识别,信息抽取 | 通用内容生成 |
说明
① python:编程语言,数据科学,数据分析领域的框架比较全,最常用的sklearn,pytorch,tensorflow,transformers等
② sklearn:scikit-learn的简称,最常用的机器学习算法包
③ R:类似python,但是专业领域用得多,软件行业用得很少
④ pytorch:深度学习框架
⑤ tensorflow:深度学习框架(维护性,可读性不如pytorch)
⑥ transformers:基于pytorch框架
⑦ BERT和GPT都是基于transformers
开发环境的特点
开发环境 | 特点 |
---|---|
SPSS,SAS | 上手门槛低,模型更新慢,无法应对大数据,离线分析为主,模型较难部署为服务 |
anaconda+python+notebook+sklearn | 数据分析,机器学习技术栈 |
anaconda+python+notebook+pytorch/tensorflow+transformers | 深度学习(NLP)技术栈 |
阿里pai/腾讯Ti/华为ModelArts/亚马逊SageMaker | 高度集成化的一站式AI ops平台,其中阿里pai支持按量付费 算法工程现状 |
三. 人才供给
数据分析/算法工程师的能力分级
等级 | 能力描述 |
---|---|
其他 | SPSS/SAS分析师,依赖软件,软件上前沿算法更新慢,无法应对大数据,离线分析为主, 模型较难部署为服务 |
初级 | python+sklearn等标准算法包调包侠 |
中级 | 能独立完成特征工程(前处理)和badcase处理(后处理),各种集成方法的成熟调包侠 |
高级 | 能用pytorch(行业标杆)/tensorflow(用的人最多,分1和2,问题也较多)/keras(最简单) 拼神经网络模型,复现论文 |
资深 | 深入理解算法原理,紧跟前沿paper,能因地制宜地改进算法(对神经网络模型进行魔改), 熟悉transformers,工作高度工程化自动化,能全面考虑算法的成本,收益和质量, 能对接需求,能对接数据标注 |
人才背景和特点
来源 | 特点 |
---|---|
人工智能应届生 | 理论能力强,工程能力稍弱 |
数据分析师/统计专业转算法 | 理论能力参差,工程能力很弱 |
商业分析转算法 | 工程能力和理论能力都不行 |
后端开发转算法 | 理论能力参差,工程能力强 |
大数据工程转算法 | 理论能力参差,工程能力参差 |
四. 可能遇到的问题
问题1:算法项目依赖数据质量,不一定保证效果
问题2:黑盒算法解释性低,出了问题较难给出改进建议
问题3:数据分析不具备自我造血能力
问题4:传统notebook形式不具有工程性,没有AI ops工具链,效率较低
问题5:会有一些数据标注,数据后处理,模型部署,接口开发工作
五. 参考资料
算法工程竞赛平台(含大量notebook和解决方案)
① Kaggle: Your Machine Learning and Data Science Community
sklearn机器学习包
scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation
Huggingface模型社区
从transformers模型发展而来的预训练模型库Huggingface
Transformers,ChatGPT,BERT的关系