方差:
1、用来衡量源数据和期望值相差的度量值
2、公式定义:
3、考试而言,如果某个同学每次都在15名左右,那么可以说他的成绩很稳定,因为方差很小
4、仪器而言,如果一个机器测量出的值都在a,偏离一点点,那么可以说这个仪器性能更稳定
5、数据分析中,如果某一列的方差为0,可以说明这一列数据值都差别不大,没必要把这列作为特征去进行训练。
6、z-score标准化是最常见的标准化方法,也是SPSS默认的标准化方式。符合标准正态分布的数据,均值为0,方差为1。很多时候对数据经过z-score标准化后,训练速度大大加快,不标准化的时候可能不能收敛,比如时序分析中。
协方差与相关系数
参考知乎 《如何通俗地理解协方差和相关系数》
协方差:
即“X与其均值之差”乘以“Y与其均值之差”,最后求期望。
当时,X和Y有同时增加或减少的倾向,称为X、Y正相关
当时, X和Y有反向增加或减少的倾向,称为X、Y负相关
等于0时,称为不相关。

比如体重和身高,经过计算协方差,可以发现是正相关的,如果计算体重和年龄,我们也能发现是正相关的,但是怎么衡量哪个数据跟是身高和体重跟相关还是年龄和体重跟相关,就需要用到相关系数了。
相关系数,剔除了量纲的影响
出来的协方差是有单位的,比如身高 (单位:厘米)与体重
(单位:公斤)的协方差
的单位是:厘米
公斤。为了去掉量纲的影响,需要去掉各自的标准差。
相除 之后可以发现没有了量纲的影响。
如果根据提到的身高 ,体重
以及年龄
,根据数据算出来:
我们可以说身高与体重更加正相关。
.
典型相关性分析
我们可以看到,身高体重都是一维的,比如N个人的身高X和N个人的体重Y,计算X和Y之间的相关性。
在很多情况,需要分析的两组数据不一定都是一维的
比如:
研究宏观经济指标 中的[经济增长率,失业率,物价指数,进出口增长率]和 股市市场状况的指标[股票价格指数,股票市场融资金额] 这两组数据的相关关系
研究 锻炼情况[每周健身次数,每周健身总时长,身高,体重] 健康情况[血压,血脂] 两组数据的相关关系
研究 临床诊断信息 和基因信息 两组数据之间的相关关系
研究学生体力[反复横向跳、纵跳、背力、握力、台阶试验指数、立定体前屈、俯卧向体后仰]和运动能力指标[50米跑时间、跳远、投球、引体向上、耐力跑]的相关关系。
典型相关分析最早哈罗德·霍特林首次引入。他所提出的方法于 1936 年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》经过多年的应用及发展,逐渐达到完善,在 70 年代臻于成熟。
现在的问题是,这两组数据维度不一样,要计算相关系数肯定都得乘上一个转换矩阵。
基于典型相关性分析的特征融合
rcca
222
