向量和向量空间

内积

一个基础 - 图1 维线性空间中的两个向量基础 - 图2 和基础 - 图3 ，内积为：
基础 - 图4

正交

如果向量空间中两个向量的内积为 0 ，则它们正交。如果向量空间中的一个向量基础 - 图5 与子空间基础 - 图6 中每个向量都正交，那么向量基础 - 图7 和子空间正交。

Hadamard 积

也称为逐点乘积，即 A 和 B 中对应的元素乘积
基础 - 图8

笛卡尔乘积

在集合论中表示为基础 - 图9 ，是所有可能的有序对组成的集合，其中有序对的第一个对象是基础 - 图10 的成员，第二个对象是基础 - 图11 的成员
基础 - 图12

常见函数

Logistic 函数

Logistic 函数是一种常用的 S 形函数，定义为
基础 - 图13
这里基础 - 图14 函数表示自然对象，基础 - 图15 是中心点，基础 - 图16 是最大值，基础 - 图17 是曲线的倾斜度。
标准 logistic 函数，记为基础 - 图18
基础 - 图19
经常用来将一个实数空间的数映射到 (0,1)区间。

Softmax 函数

softmax 函数是将多个标量映射为一个概率分布，对于基础 - 图20 个标量基础 - 图21 softmax 函数定义为
基础 - 图22
可以将基础 - 图23 个标量基础 - 图24 转换为一个分布：基础 - 图25 , 满足
基础 - 图26
当输入为基础 - 图27 维向量基础 - 图28 时，
基础 - 图29
其中，基础 - 图30 是基础 - 图31 维的全 1 向量。

梯度下降法

梯度下降法（Gradient Descent Method），经常用来求解无约束的极小值问题。梯度下降法的过程:

曲线是等高线（水平集），即函数基础 - 图33 为不同常数集合构成的曲线。红色箭头指向该点梯度的反方向（梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达函数基础 - 图34 值的局部最优解。
梯度下降法为一阶收敛算法，当靠近极小值时梯度变小，收敛速度会变慢，并且可能以“之字形”的方式下降。如果目标函数为二阶连续可微，我们可以采用牛顿法。牛顿法为二阶收敛算法，收敛速度更快，但是每次迭代需要计算
Hessian矩阵的逆矩阵，复杂度较高。
梯度上升法（Gradient Ascent）: 如果求解一个最大值，就需要向梯度正方向迭代进行搜索，逐渐接近函数的局部极大值点。

概率论

伯努利分布

在一次试验中，事件 A 出现的概率为基础 - 图35 ，不出现的概率为基础 - 图36 。若用变量基础 - 图37 表示事件 A 出现的次数，则基础 - 图38 的取值为 0 和 1，其相应的分布为
基础 - 图39
这个分布为伯努利分布（Bernoulli Distribution），又叫两点分布或者 0-1 分布。

二项分布

在基础 - 图40 次伯努利分布中，若以变量基础 - 图41 表示事件 A 出现的次数，则 X 的取值为基础 - 图42 ，其相应的分布为二项分布（Binominal Distribution）
基础 - 图43
其中基础 - 图44 为二项式系数，表示从基础 - 图45 个元素中取出基础 - 图46 个元素而不考虑其顺序的组合的总数。