想法
在未来的4个月当中 每个月拿出 一定的事件来学习 第一个月是线性代数和微积分,第二个月是线性代数和数学优化,第三个月是概率论和微积分复习,第四个月是信息论和整体复习.因为书本中没有习题所以最好能自行举出实例来解答.不过估计是找不到.今天是 9月10号 放弃一些看电视的时间吧.
A 线性代数
线性代数主要包含向量、向量空间(或称线性空间)以及向量的线性变换和有 限维的线性方程组。
A.1 向量和向量空间
A.1.1 向量
标量(Scalar)是一个实数,只有大小,没有方向。而向量(Vector)是由 一组实数组成的有序数组,同时具有大小和方向。一个n维向量a是由n个有序 实数组成,表示为 <br /> a = [a1, a2, · · · , an], (A.1) <br /> 其中ai称为向量a的第i个分量,或第i维。向量符号一般用黑体小写字母a, b, c, 或小写希腊字母α, β, γ 等来表示。
A.1.2 向量空间
向量空间(Vector Space),也称线性空间(Linear Space),是指由向量 组成的集合,并满足以下两个条件:
1. 向量加法+:向量空间V 中的两个向量a 和b,它们的和a + b也属于空 间V;
2. 标量乘法·:向量空间V 中的任一向量a和任一标量c,它们的乘积c · a也 属于空间V。
A.1.3 范数
A.1.4 常见的向量
A.2 矩阵
A.2.1 线性映射
A.2.2 矩阵操作
加 乘积 Hadamard 积 转置 向量化 迹 行列式 秩 范数
A.2.3 矩阵类型
对称矩阵 对角矩阵 单位矩阵 逆矩阵 正定矩阵 正交矩阵 Gram 矩阵
A.2.4 特征值与特征矢量
A.2.5 矩阵分解
一个矩阵通常可以用一些比较“简单”的矩阵来表示,称为矩阵分解(Matrix Decomposition, Matrix Factorization)。
奇异值分解 特征分解
B 微积分
B.1 导数
导数(Derivative)是微积分学中重要的基础概念。
高阶导数 偏导数
B.1.1 导数法则
B.1.1.1 加(减)法则
B.1.1.2 乘法法则
B.1.1.3 链式法则
B.2 常见函数的导数
B.2.1 向量函数及其导数
B.2.2 按位计算的向量函数及其导数
B.2.3 Logistic 函数
B.2.4 softmax 函数
C 数学优化
数学优化(Mathematical Optimization)问题,也叫最优化问题,是指在一定 约束条件下,求解一个目标函数的最大值(或最小值)问题。 数学优化问题的定义为:给定一个目标函数(也叫代价函数)f : A → R, 寻找一个变量(也叫参数)x ∗ ∈ D,使得对于所有 D中的 x,f(x ∗ ) ≤ f(x)(最 小化);或者f(x ∗ ) ≥ f(x)(最大化),其中D 为变量x的约束集,也叫可行域; D 中的变量被称为是可行解。
C.1 数学优化的类型
C.1.1 离散优化和连续优化
C.1.1.1 离散优化问题
C.1.1.2 连续优化问题
C.1.2 无约束优化和约束优化
C.1.3 线性优化和非线性优化
C.2 优化算法
C.2.0.1 全局最优和局部最优
C.2.0.2 梯度下降法
C.3 拉格朗日乘数法与 KKT 条件
C.3.1 等式约束优化问题
C.3.2 不等式约束优化问题
D 概率论
概率论主要研究大量随机现象中的数量规律,其应用十分广泛,几乎遍及各个 领域。
D.1 样本空间
D.2 事件和概率
D.2.1 随机变量
D.2.1.1 离散随机变量
D.2.1.2 连续随机变量
D.2.1.3 累积分布函数
D.2.2 随机向量
D.2.2.1 离散随机向量
D.2.2.2 连续随机向量
D.2.3 边际分布
D.2.4 条件概率分布
D.2.5 独立与条件独立
D.2.6 期望和方差
D.2.6.1 Jensen 不等式
D.2.6.2 大数定律
D.3 随机过程
D.3.1 马尔可夫过程
D.3.1.1 马尔可夫链
D.3.2 高斯过程
E 信息论
信息论(Information Theory)是数学、物理、统计、计算机科学等多个学科的 交叉领域。信息论是由 Claude Shannon最早提出的,主要研究信息的量化、存 储和通信等方法。这里,“信息”是指一组消息的集合。假设在一个噪声通道上 Claude Shannon,1916年4 月30日-2001年2月26日), 美国数学家、电子工程师和 密码学家,被誉为信息论的 创始人。 发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接 收者可以尽可能准确地重构出消息。 在机器学习相关领域,信息论也有着大量的应用。比如特征抽取、统计推 断、自然语言处理等。
