拆分 jupyter ctr shift-
6-21
6-20
6-19
6-18
6-17
6-15
6-14
6-13
6-11
- 决策树
- 随机森林
6-10
6-9
6-8
6-7
6-6
5-28
5-27
5-22
5-20
5-19
- 损失函数
  - 三种学习对比
5-18 sklearn

拆分 jupyter ctr shift-

6-21

特征选择，变量按重要性排序 rf pimp。先colone然后决定哪些变量可以删除留下重要的。

6-20

sns.pairplot的用法，seaborn 相关关系。单独的特征hits直方图，看看。
joinplot双关系图，直方图＋散点图 or其他。

6-19

关联规则，支持度一起购买。置信度，先买a后买b list 提升度，买a对买b的提升
分类器 1 概率 2具体的分类。排序的倾向性分类的准确性

6-18

偏差vs方差

6-17

特征选择33333。特征提取，多个特征组合降维。新数据，创建特征
数据透视偏差和采样偏差。

在线学习vs批量学习，动态与否

mbe rmse mae回归
hinge loss , cross entropy loss分类

6-15

python 数据处理中的 LabelEncoder ，OrdinalEncoder 和 OneHotEncoder
ordical 顺序编码，male对应1，female对应2

6-14

pytorch是什么。
向量vector Tensor 张量。向量由基向量组成，3x+4y+5z 3 4 5 是分量。

衡量聚类的效果，轮廓系数。选择 n -clusters
svm的决策边界。
核变换，升维

看sklearn.org官网

softmax 回归(softmax regression)其实是 logistic 回归的一般形式，logistic 回归用于二分类，而 softmax 回归用于多分类，

文本的预处理，向量。
图片的预处理，放进模型，出向量。

哑编码vs独热编码

Scikit-learn(sklearn)的定位是通用机器学习库，而TensorFlow(tf)的定位主要是深度学习库。一个显而易见的不同：tf并未提供sklearn那种强大的特征工程，如维度压缩、特征选择等。究其根本，我认为是因为机器学习模型的两种不同的处理数据的方式：

传统机器学习：利用特征工程(feature engineering)，人为对数据进行提炼清洗
深度学习：利用表示学习(representation learning)，机器学习模型自身对数据进行提炼

深度学习方法一般需要大量GPU机器，资源有限

6-13

特征工程——选择特征创建特征解决潜在问题的特征
无量纲化，中心化 zero centered——-减去固定值。缩放处理 scale—-除以固定值、

minmaxscaler就是normaliztion归一化

标签文本预处理，label encoder
ordical encoder

分类数据，转化为数值的时候，忽略他们之间的关系，哑变量独热编码—-他们没有关系 001 010 100
binarizer二分类。连续性变量分类。

特征选择，三个 filter wrapper embedded

维度 shape返回shape（2）一维—这是series
对于特征矩阵，多少列特征就是几维
pvc—-方差
svd
聚类vs分类
聚类的结果不确定，无监督。分类结果已知，监督学习。

6-11

sklearn

决策树

dicision tree regressor, classifier
最佳节点，最佳分支。不纯度？？criterion
分类===entropy信息熵 gini基尼系数。信息增益=父节点的信息熵-减去—-子节点的信息熵
回归的时候，mse 均方误差
graphviz 展现这棵树、

剪枝策略是决策树的核心
ensemble learning 集成学习
ensemble estimator 集成评估器。 base estimator 基评估器

随机森林

n estimator 树的数量。
泛化误差 generation error

网格搜索给的 search
交叉验证 cross val
交叉验证的基本思想是把在某种意义下将原始数据 (dataset)进行分组,一部分做为训练集 (train set),另一部分做为验证集 (validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型 (model),以此来做为评价分类器的性能指标
trian set 泛化能力， validation set 调参数。

6-10

auto ml，联邦学习，集合学习

6-9

特征值就是数，特征向量代表与坐标系变化之后，仍在同一直线上。

梯度是向量，不是标量。
ml步骤——创建特征值，假设
clf = classifier

random state的使用情况，生成数据集划分test set和train set，决策树。
剪枝的主要目的是对抗「过拟合」，通过主动去掉部分分支来降低过拟合的风险。
overfitting过度拟合 —-原因数据太少，模型太复杂，
underfit

在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量 information gain

6-8

hessian 二阶导数
二次型纯二次项组成的函数。
ml三大方向 dl automl 联邦学习。三大公司华为云九章云极第四范式。三大领域金融媒体零售。

roc展示的是分类器混淆矩阵的所有可能情况。也叫sensitivity curse 感受性曲线。
roc是曲线，样本不足不是光滑的而是阶梯型。
auc是roc下的面积，值。
f1是精确率和召回率的调和平均

其实最主要的是思维理念不同，数据仓库是“管理数据”，数据中台是“经营数据”，数据中台是为了提供服务而生（也有说是为了前台而生）。

6-7

而似然性(Likelihood) 正好反过来，意思是一个事件实际已经发生了，反推在什么参数条件下，这个事件发生的概率最大。

1范式 2范式——1是曼哈顿距离。2
独热编码【00000000100000】
m=n 方阵

逆矩阵。
行列式把矩阵变成一个标量。
偏导数，多变量，只对一个变量求导。其他不求。
高阶偏导—-梯度下降。
雅克比矩阵。神经网络的隐藏层。

6-6

回归是做拟合分类是找分割的超平面
聚类是分组，降维是去噪音，冗余信息。四个的应用场景

算法最后都会演变为求解特征值或者特征向量问题
凸优化拉格朗日梯队下降

转置transpose的目的是 y=w1x1+w2x2+……的时候，方便计算。

5-28

training set是用来训练模型或确定模型参数的，如ANN中权值等； validation set是用来做模型选择（model selection），即做模型的最终优化及确定的，如ANN的结构；而 test set则纯粹是为了测试已经训练好的模型的推广能力。ts是上课教的，test s是课后作业 —-都有答案，vs是考试，没有答案。

5-27

ssl 半监督学习，数据预测有三类 ——-cluster 聚类，manifold流体 continuity 连续
active learning主动学习，crowdsourcing众包 self-learning自学习标注工 labeler
弱监督学习 weak supervision
标注的方法众包 data programming self-learning
自学习与半监督学习：两者都是有少量的标注数据和大量的未标注数据的情况。两者的不同在于半监督学习要求标注数据和未标注数据有同样的分布，而自学习没有这种要求，因此具有更广泛的应用。

softmax

5-22

设置随机种子，测试集训练集split
黄金思维圈——三圈 what how why
快速发散收敛能力。
人均访问页面数 pv/uv
新用户分析/漏斗分析/首页转化率
芝麻信用分的五大衡量维度
normalization归一化
混淆矩阵confusion matrix，分类器。accuracy 准确率。精确率 precision，召回率 recall。specity 特异度
阈值 threshold
AUC ROC

5-20

随机生成器！操作流程看不懂
手动创建白噪声数据。降噪方法—-gaussian noise 。相比于其他的synthetic noise distribution，高斯噪音确实有他的合理性。在真实噪音的噪音源特别复杂的时候，高斯噪音可能算是最好的对真实噪音的模拟。
鲁棒性 robust 在程序遇到异常情况时还能正常工作，而不至于死机。
随机数种子 np.random.seed(9)

算法的本质是，发现数据背后的数学规律

5-19

tom mitchell pte—-ml的定义
机器学习—-反馈机制—-变聪明
训练算法解决实际问题
机器学习深度学习集成学习对比是什么
特征feature 和标签 label怎么区分。预测就是feature，label放在最后一列。样本的特征feature，结果是哪一类label
离散型变量，分为名义性变量，如性别01 顺序性变量，如本科研究生
离散型标签———分类问题。连续型标签——回归问题。
线性多元线性回归多项式回归模型，如二次项
数据和算法准备好，就开始模型训练，让模型的参数有效调整。
模型评估指标对比预测值和实际值。

损失函数

sse 残差平方和，实际值和预测值的差的平方和。
损失函数，把结果反馈给模型。借助损失函数，求得模型的最优参数。参数w b 作为x y轴， sse为z轴？
array和matrix的区别
matrix是二维的，array是任意维度。
点积，先乘后加。
矩阵求导运算。把方程组变为矩阵方程。
algebra代数， linalg线性代数。
向量方程矩阵方程？？？定义法求解。

三种学习对比

（1）监督学习有反馈，无监督学习无反馈，强化学习是执行多步之后才反馈。（2）强化学习的目标与监督学习的目标不一样，即强化学习看重的是行为序列下的长期收益，而监督学习往往关注的是和标签或已知输出的误差。
无监督学习理解为一种漫无目的的分类手段
降维≈去重

5-18 sklearn

逻辑分类，也是一种线性回归。借助link 联系函数—-sigmoid
没有参数，就没有损失函数
统计学是先验的，ml是后验的。先验是独立于经验的。
正则化，防止过拟合。penalty是正则表达式的参数，有L1 L2

数据要分给测试集训练集
python和r对比，python是计算进的人开发，R是统计学出生。
菜菜sklearn里面特征减少的正则方法降维
max iter就是最大迭代次数。梯度向量。

Misia的learn日记

算法入门