数据分析阶段后,是机器学习

思路转为代码的能力,不要想太复杂的问题
没有捷径
图片.png
图片.png
通用数据分析思维,常用量化分析指标
图片.png

基本特征处理
图片.png

基础api使用,业务分析场景,新api,以及解决问题
基础打好,否则算法看懂也无从下手
量化交易: 设计策略,利用历史数据预测,合适则应用,调参
自动升级维护: 深度学习
ai 做的东西目前不是刚需,对传统行业不足以节省更多成本
是需求,但要等

图片.png
数据来源,公司提供,没有只能自己爬,不干净
清洗: 没有缺失,归一化
1000个数据,只有100个有,用随机数不准,舍弃字段,但太重要,那就只能强行用少量数据
特征做的好,简单模型也能胜过深度学习
瞎搭网络
模型要嵌入软件中,有人写ui,写应用
web 程序员调用我 他们是java,用restful 接口来屏蔽语言差异
图片.png
图片.png 相互渗透
用户点击多的,就是收费的,这个过程学习
python 提供了足够多的数据处理的库

数据处理

图片.png
图片.png
图片.png 差距很大的特征,基于正太分布使其业务逻辑上和谐,差10岁和差10块钱,要放在自己中比较

图片.png 封装为 api:
图片.png
图片.png
图片.png
图片.png 图片.png 约为 0
图片.png 等比缩放
图片.png 创建缩放器 mms,向其喂入即可
图片.png

书接上回 5.06.2022 14:42

图片.png

图片.png
归一化说明的情况是: 有些时候,要按行考虑,而不是按列
图片.png
图片.png
什么时候用归一化也要看场景,有时不需要做行对比处理

图片.png
图片.png
图片.png
opencv 有自己的二值化

图片.png
图片.png 原来 三个特征,现在 9个特征

图片.png
图片.png
看距离比相似度
从文本到读热
图片.png创建读热编码器
fit 训练 transfrom 转换 可以拆分
图片.png
特征变得简单,有时很好用

标签编码 为字符串编码

图片.png 可以用一个标签编码器标注多个特征,但最好一列一个编码器
图片.png有编码和解码两个功能
图片.png

预处理结束,但很抽象,要在算法中使用

最难的地方: 理论最多的 线性回归
后面各种算法不看底层,就用
图片.png
图片.png
图片.png