人工智能入门(卢菁老师) - 图2

第1章 线性回归(模型1)

1.1 前置知识

1.1.1 为什么需要线性回归

1.1.2 什么是线性回归

1.1.3 什么是线性回归方程

1.2 线性回归模型

1.2.1 需求

假设有这样一个需求:
人工智能入门(卢菁老师) - 图3
假如输入为 x 通过模型(model)后得到了y。有时候我们可能得到了这样一组数据,如下图:
image.png
左边是 x ,右边是 y,通过什么样的公式根据 x 然后得到 y。

1.2.2 模型 y = wx + b

要解决上面的需求,得到一个这样的公式(y = wx + b)。这个公式在坐标系里面就是一条直线。w:表示倾斜度,b:表示直线在 y 轴上位置。

1.2.3 线性回归

由于表示的是一条直线,所以我们称为线性回归(回归:拟合,模拟的意思)。也就是说根据已知数 x 和 y 把 w 和 b 给算出来,就叫做回归。
假如在坐标系中有很多点,如下图:
image.png
我们要找到一条直线,该直线要尽可能多的通过坐标系中的点。直线通过的点数越多拟合程度就越高。

1.2.4 多点可能产生误差

只有通过不断调整w和b来实现。那具体如何调整呢?
首先,假设坐标系中只有一个点(2,3)那么将会有无数多条直线通过该点,也就是说w和b有无数多个。
4fd099d5d8e54420bef26705cbb57fca.png
若坐标系中有两个点如(2,3)和(3,6),那么w和b就只有一个。
d8b2ab63e7bb4273942da9f0da0012d7.png
若坐标系中有三个点如(2,3)、(3,6)和(1,7),点(1,7)不在直线上,所以产生了误差,离线越远误差越大。
ae7c3389ba5c489ca49c76ee80c49379.png

1.2.5 MSE

用MSE公式来表示误差,如下图:v2-fb050ce4ead1de75aa1b67294d3d2add_1440w.jpg
MSE每个字母代表的意思如下图:v2-00dbd4433986f10e9426559aa0b32f35_720w.jpg

1.2.6 使MSE最小

要减小误差,只能通过不断的改变w和b,如下图:
0dabf6e6d8a14583827a263dfa000fe5.png
当mse最小时,误差自然就最小了。我们可以将公式写成下图这样:
bd1c0c26299047aa915326cbb519c815.png
204081aa9ecc4a8c88b9c18df365f82d.png

1.2.7 导数

97413fb53b5d4e81a321a2a55a23b067.png
总结如下:
474641ad63884c70ae8258875811d481.png
总结:
61f2b38a009546f7ba35d4d631c54303.png

1.2.8 随机初始化w(初始值是机器自动给出的)

f919f93433db400b8d15360cfee7c2cf.png
无标题.png
ce84cb3c0d4d4898a7e640ab48bcd487.png

1.2.9 梯度下降法

09a0b9ac3b4d4bb1a971e25eca6506e7.png
image.png

1.3 多元线性回归

在此之前 y = wx + b,只有一个x,现实生活中可能 x 不止一个,比如我们要预测房价,就需要多个x,x1,x2,x3,x4,……。分别代表当地收入,人口密度,人口结构,受教育程度等,y 是我们需要的房价。这就需要多元的线性回归,也就是 x 是多个,y 只有一个。
8f4275228751479aa5ae3bb8a520e9bd.png

1.3.1 w对y的影响

945e57762b0e4be1b4b9e17838cc9c31.png

1.3.2 将非线性回归模型转化为线性回归模型

线性回归有个前提条件:所有的点都在一天直线上。
image.png
921cb01b292e4ddfa1862a7232f2e1ef.png

1.3.3 多元线性回归与特勒公式

特勒公式的精髓在于:任意公式都可以分解为下图中的公式。
fdc3e53a2060401cb15a61833e68147e.png

1.4 线性回归的优点

1.4.1 优点1:抗噪声

1.4.2 优点2:抗冗余

1.5 总结

通过机器学习,最终找到一个合适的w,让mse最小。

1.6 面试题

测试集的误差一定大于训练集吗?
不一定,因为测试集是随机选的,有可能刚好选到训练集上面的数据。
但是,在真实环境中,测试集的mse一般大于训练集的mse。
测试集的mse和训练集的mes谁大谁小?
image.png
2中所指的图,如下:
adbff5bec91140e6b73963039a84e25e.png
解决办法:有两个
1、增大训练集,这样测试集就有很大机会选中训练集的数据。
2、增加训练集数据的多样性。尽量从已经取得的数据中选取数据,不是从集中的一小部分取数据。

第2章 逻辑回归

2.1 线性回归与逻辑回归的区别

区别1:线性回归是得到一个y,逻辑回归是得到一个类别。
a26a5532a2b34d1c95a3802865cf4fd5.png
区别2:线性回归:知道坐标的一部分,通过预测另一个。
逻辑回归:知道完整的坐标,计算和直线的相对位置。

2.2 分类

2.2.1 多分类(两种以上的分类)

0728226414c74817947b588b3de812ca.png

2.2.2 二分类

为了简化问题,我们先从二分类讲起,首先需要明白的是:没有一分类,假如输入x—->model—->p,若 x 是一张猫的图片,那么得到的 p 要么是猫 ,要么不是猫,是猫用1表示,那么就隐含了一个分类不是猫用(1-p)表示。
f853cbfca09f4791957f599ad66fe1a1.png

2.3 实现二分类的模型

cd02442b3c6e4e40b6ccfa79ab8c50a4.png
93d87a1262b94241a58ecac94c31a5c5.png

2.3.1 f 值域(0,1)

21ed4374549f4f1292f4f3fa85829153.png

2.3.2 d 与 f 的关系

7a3832876434451e877c5d04354235d1.png

2.3.3 求导

2.3.4 倒数曲线

3b6477000fb44d0daacc544265158d21.png

2.4 逻辑回归中机器学习到底学什么

image.png

2.5 KL距离(两个概率之间的距离)

2.5.1 什么是KL距离

2.5.2 两个例子

630b9b41067d4249804f1da35d25acce.png

2.5.3 KL距离公式

0afde5d139ea4f2eae0941c82e6d7e9d.png

2.5.4 KL距离的性质

6e88d44074584b02834ee50381ebcab2.png

2.5.5 计算预测概率与真实概率之间的距离

若只考虑发生的概率:
8509f59f55964d0584235e24e6cb3902.png
两者都考虑(发生和不发的概率都考虑)
2d1d6715c551408d9103f7ac67e560ce.png
5e61b8b459ba405681a98a5e6fd95220.png

2.6 机器学习的流程

第一步:先随机出一个w,计算模型输出;
第二步:计算模型输出与真实数值的差,得到损失函数(mse,kl距离);
第三步:不停地调整w让损失函数变小。

2.5.6.1 对LK距离公式进行求导 image.png

2.5.6.2 梯度下降法

image.png

2.7 逻辑回归只能做二分类吗

逻辑回归可以做n分类,但是通常不这么干,原因如下:
ea78bcaa2b674a31af032eb01d5eed09.png
工程上如何解决:
0486ef0b6a964f3e810b61141749eb3c.png

2.8 线性不可分

在平面上总有一些点没法用一条线将其分开,如下:
9ba815891fd346f5b2fc61fdef6e65dd.png

2.9 上采样与下采样

主要是为了解决数据平衡的问题,

2.10 分类模型的评价方式(3种方式)

标注的信息(也称为正确答案)有两种情况:
1、P(y = 1);
2、N(y = 0);
模型预测出来的也有两种情况:
1、P’(y>0.5)
2、N’(y<0.5)
将标注信息与预测信息综合起来,就有四种情况,如下图:
image.png
以上四种情况中,只有两种情况(TP和TN)的预测结果与真实结果是一致的。

2.10.1 方式1:正确率(acc)

08490509a11f4719bc923665e8abbe84.png

2.10.1.1 正确率(acc)的缺点

当样本类别不均衡时,这种评价就会失效:
01fb02a177174fe1bb9e6dd1a55840dd.png

2.10.2 方式2:准确率和召回率

为了解决正确率中由于样本数量极度不均衡,正确率被大样本一方拔高的情况,引入了准确率和召回率。
准确率和召回率不是一个整体指标,他们是针对某一类(P类或N类)的预测情况进行评价的。
准确率越高,说明模型的误判少,比如推荐系统,每日给用户的推荐要尽可能的精确。
召回率越高,说明模型的漏判少,比如过滤政治反动言论、黄色暴力等文章的模型,就重视召回率,宁可误判也不要漏判。
准确率和召回率是相互矛盾的。
d05b69da410c44f39b25d6ca9bd89625.png
微信图片_20220623063109.jpg

2.10.2.1 准确率和召回率的缺点

准确率和召回率跟阈值有关,阈值的变化会影响预测结果,进而引起指标的变化,而阈值的选择依赖于产品形态。所以准确率和召回率不是完全客观的。

2.10.3 方式3:AUC(ROC曲线下面的面积)

AUC是一种不受阈值影响的,只考虑模型本身好坏指标。

2.10.3.1 ROC曲线

基本的符号表示:
d98b8fc81d524d10a474e7d28bb9fbd4.png
什么是ROC曲线:
ROC曲线就是一条以n/MN(范围[0~1])为横轴,m/MP(范围[0~1])为纵轴,形成的坐标用(a,b)表示,每个阈值(θ)都对应了一个唯一的坐标,遍历所有阈值(θ)所形成的一条曲线。
2131be934aa8436f8afc9b4d956747ae.png
202e6477d8f6497e9bb4921c1cebfffd.png

2.10.3.2 案例

73bff382a3394fa6adb6a7802e07fb43.png

2.10.3.3 AUC的取值范围

?面试题(3级)

面试题1、KL距离问题(二)~KL距离问题(五)
面试题2、逻辑回归中为什么不用MES,68、69

第6章 无监督学习

6.1 为什么需要无监督学习

5d2321179f0a4de3a933294bb7682eb2.png

6.2 什么是无监督学习

4c2a6aa434fe48bf9d1653bf422589b4.png

6.4 K-Means算法(根据质点不断将点进行分类的算法)的基本原理

6.4.1 K-Means算法的步骤

人工智能入门(卢菁老师) - 图60

6.4.1.1 什么时候循环结束

人工智能入门(卢菁老师) - 图61

6.4.1.2 μ 如何计算(样本到某个质点的距离)

人工智能入门(卢菁老师) - 图62

6.4.1.3 loss 公式

人工智能入门(卢菁老师) - 图63

6.4.1.4 关于质点

人工智能入门(卢菁老师) - 图64

6.4.3 质心是如何受样本影响的

1656726907721-b1fa91bd-4d51-45c3-8d0d-3d2003a7a593.png

6.5 聚类存在什么问题

6.5.1 问题1:对初始点敏感

随机初始化的时候往往会极大的影响分类,如下图:
Screenshot_2022-07-02-10-35-53-541_com.miui.notes.png
怎么办呢?
最好的办法就是,多随机几次,每次都求出一个loss,最终选loss最小的那个即可。但是,会带来新的问题:当样本量很大的时候就非常耗时耗资源。

6.5.2 问题2:被异常点影响

如果一个样本远离了其他所有样本,那么他就是异常点。有两种办法可以避免:
方法1、分类前先将其去除;
方法2、每次聚类的时候将距离质心很远的那个点去掉。

6.5.3 问题3:某些场合缺乏物理意义

比如男表示为0,女表示为1,那么聚类以后得到的可能是一个小数,这就缺乏了物理意义。这个问题没法解决。

6.5.4 问题4:数值问题

有如下案例:
Screenshot_2022-07-02-11-39-11-658_com.miui.notes.png
解决这个问题的办法就是进行归一化操作。

6.6 如何寻找合适的K

Screenshot_2022-07-03-07-13-08-066_com.tencent.edu.png

6.7 K-means算法无法解决的问题

Screenshot_2022-07-03-20-22-09-998_com.miui.notes.png

6.8 聚类效果的评价

6.8.1 评价的工具

使用信息量(信息熵)来进行评价。

6.8.2 评价的角度

6.8.2.1 角度1:从同一个类的角度评价

计算同一个类的两种不同信息熵:
1、同一个真实类别中,所包含的预测类别的情况;
这种情况K设置过大
2、同一个预测类别中,所包含的真实类别的情况。
这种情况K设置过小

6.8.2.2 角度2:从不同类角度进行评价

计算两类的相似度(用笛卡尔相似度)

第7章 深度神经网络

7.1 深度学习与传统机器学习的关系

人工智能 = 传统机器学习 + 深度学习
深度学习其实是由传统机器学习的BP模型发展而来的,也就是说深度学习其实是机器学习的延伸。

7.2 为什么需要深度学习

深度学习其实是从逻辑回归中来的,机器学习中最大的难点是特征。一个好的特征有以下几个特点:
1、区分度高;
2、特征的数量多;
3、能进行各类特征的组合。
特征的组合是重点,也是难点。在FM模型中,能自动组合二阶特征。但有时候我们需要组合更高阶的特征,比如,3阶、4阶乃至更高阶。很多时候具体需要多少阶我们自己都不胜了解。
能否搞一个类似于FM模型,能自动组合特征的框架,具体组合方式以及阶次由模型自动学习。像这样的模型就是深度学习。
7.3 什么是深度学习

7.4 深度学习的基本原理

image.png

7.4.1 常见写法

Screenshot_2022-07-07-06-47-35-128_com.miui.notes.png

7.4.2 从 n 维向量到 m 维向量的变换

7.4.2.1 没有意义的变换

Screenshot_2022-07-07-07-36-08-846_com.miui.notes.png

7.4.2.2 有意义的变换