数据分析阶段后,是机器学习
思路转为代码的能力,不要想太复杂的问题
没有捷径
通用数据分析思维,常用量化分析指标
基本特征处理
基础api使用,业务分析场景,新api,以及解决问题
基础打好,否则算法看懂也无从下手
量化交易: 设计策略,利用历史数据预测,合适则应用,调参
自动升级维护: 深度学习
ai 做的东西目前不是刚需,对传统行业不足以节省更多成本
是需求,但要等
数据来源,公司提供,没有只能自己爬,不干净
清洗: 没有缺失,归一化
1000个数据,只有100个有,用随机数不准,舍弃字段,但太重要,那就只能强行用少量数据
特征做的好,简单模型也能胜过深度学习
瞎搭网络
模型要嵌入软件中,有人写ui,写应用
web 程序员调用我 他们是java,用restful 接口来屏蔽语言差异
相互渗透
用户点击多的,就是收费的,这个过程学习
python 提供了足够多的数据处理的库
数据处理
差距很大的特征,基于正太分布使其业务逻辑上和谐,差10岁和差10块钱,要放在自己中比较
封装为 api:
约为 0
等比缩放
创建缩放器 mms,向其喂入即可
书接上回 5.06.2022 14:42
归一化说明的情况是: 有些时候,要按行考虑,而不是按列
什么时候用归一化也要看场景,有时不需要做行对比处理
opencv 有自己的二值化
原来 三个特征,现在 9个特征
看距离比相似度
从文本到读热
创建读热编码器
fit 训练 transfrom 转换 可以拆分
特征变得简单,有时很好用
标签编码 为字符串编码
可以用一个标签编码器标注多个特征,但最好一列一个编码器
有编码和解码两个功能