常用值

均值

  1. 均值 (受到极端数据的影响)
  2. 算术平均数
  3. 加权平均数
  4. 中位数(不能很直观的表现同意表现)

    数学期望

  5. 实验中每次可能的结果的概率乘以其结果的总和

  6. 反映随机变量平均取值的大小

    1. 列子 掷骰子 期望值等于
      1. 1/6 1 + 1/62 + 1/6*3 +… = 3.5
      2. 期望值就是3.5

        方差

        意义是表示一组数组的离散程度 越小说明越稳定
        计算公式
        推荐系统涉及到的统计学知识 - 图1
        x代表平均数 xi就是每一个平均数 n就是有多少个个数
        意思就是 每一个值减去平均数的平方和 除以 值得个数

        样本标准差

        样本标准差 = 方差开根号
        因为方差有可能太大 就开根号 就可以更直观的看数据的离散程度

        协方差

        推荐系统涉及到的统计学知识 - 图2
        x维度 y维度 x-x平均 y-y平均 乘积 求和 除以 长度-1
        x维度减去x的平均值 乘以 y维度减去y维度的平均值 乘积求和 除以样本长度减一
        如果协方差大于0 则是正相关 否则负相关

        相关系数

        image.png
        协方差除以 x的标准差和y的标准差的乘积

        概率密度函数

  7. 离散型变量: 取值可以一一列出 且总数确定

  8. 连续型变量: 取值无法一一列出 且总数不确定
  9. 概率分布: 给出了所有值及其概率 只对离散型变量有意义
  10. 概率函数 是对概率分布的描述 支队离散型变量有关系
  11. 概率分布函数: 给出了x落在某区间内的概率
  12. 概率密度函数: 给出了x落在某区间内的概率变化快慢

    均匀分布

  13. 任意相同间隔所对应的概率分布相等

    高斯分布

    集中性:正态曲线的高峰位于正中央,即均数所在的位置。
    对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
    均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
    曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
    正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。
    正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
    μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数中位数、众数相同,均等于μ。
    σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

推荐系统涉及到的统计学知识 - 图4

中心极限定理

  1. 大量相互独立的随机变量当采样次数足够大 不管随机变量呈现什么分布 抽取样本的均值无限接近正太分布

    置信区间

    标准正太分布是均值为0 标准差为1
    image.png

    条件概率公式

    A,B 是两个事件 在B发生的条件下 A发生的概率
    读作 A在B发生的条件下发生的概率
    image.png

贝叶斯公式

建立在·条件概率上寻找事件发生的原因image.png