第0章：数据分析方法汇总

一、统计的分类
二、假设检验
三、信度分析：略
四、列联表分析：略
五、相关分析：
六、回归分析
七、聚类分析
八、主成分分析：
九、时间序列分析：
十、生存分析
十一、典型相关分析
十二、ROC分析
十三、其他分析
- 名词解释：
Reference：

一、统计的分类

集中趋势分析：通过平均数、中数、众数等统计指标来表示数据的集中趋势。
离中趋势分析：全距、四分差、平均差、方差、协方差、标准差统计数据的离中趋势
相关分析：数据之间统计学上的关联性（单因素、多因素、正相关、负相关、因果等）
统计推论：以统计结果为依据，来证明或者推翻某个命题。通过分析样本与样本之间的分布差异，来估算样本总体、同一样本的前后测成绩差异、样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。
二、假设检验

参数检验：在已知总体分布的条件下（一般要求符合正态分布），对一些主要的的参数进行检验（均值、百分数、方差、相关系数等）
1. U检验：当样本含量n较大，样本值符合正态分布
2. T检验：当样本含量n较小，样本符合正态分布
  1. 单样本T检验：：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别
  2. 配对样本t检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似
  3. 两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用
非参数检验:非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。
1. 虽然是连续数据，但总体分布形态未知或者非正态；
2. 分布虽然正态，数据也是连续类型，但样本容量极小，如10以下；

卡方检验、秩和检验、二项检验、游程检验、K-量检验

三、信度分析：略

四、列联表分析：略

五、相关分析：

单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和因变量。
复相关：三个或三个以上因素的相关关系叫复相关。即研究时涉及两个或两个以上的自变量和因变量相关。
多因素有交互方差关系：一项实验多个影响因素与响应变量的关系，但是影响因素之间没有影响关系或忽略影响关系。
协方差分析：传统的方差分析存在明显弊端，无法控制分析中存在的某些随机因素，使之影响了分析结果的准确性。协方差分析主要是排除了协变量的影响后，再对修正后的主效应进行方差分析，是将线性回归与方差分析结合起来的一种分析方法。
1. 协方差：衡量两个变量的总体误差。用于表示两个变量的总体误差，如果两个变量的变化趋势一致，则两个变量的协方差为正值。如果两个变量的变化趋势相反，则协方差为负值。如果X，Y都是统计独立的，则两者协方差为0。反过来，协方差为0则两个随机变量不相关。
2. 方差：每一个变量与总体均数之间的差异。
  六、回归分析
一元线性回归分析：只有一个自变量X与因变量Y有关，X与Y都是连续型变量，因变量y或其残差必须服从正态分布。
多元线性回归分析：分析多个自变量与因变量Y的关系，X与Y都必须是连续型变量，因变量y或其残差必须服从正态分布。
Logistic回归分析：线性回归模型要求因变量是连续的正态分布，且自变量和因变量呈现线性关系，而Logistic回归模型对因变量的分布没有要求，一般用于变量是离散型的情况。

七、聚类分析
聚类分析：将数据分类到不同的类或者簇的过程，所以同一个簇中的对象具有很大的相似性，而不同簇之间的对象具有很大差异。
性质分类：
1. Q型聚类分析：对样本进行分类处理，又称样本聚类分析，使用距离系数作为统计衡量相似性；例：欧氏距离，极端距离，绝对距离等。
2. R型聚类分析：对指标进行分类处理，又称指标聚类，一般用系统聚类法来聚类指标，又称分层聚类。
方法分类：
1. 系统聚类法：适用于小样本的样本聚类或者指标聚类，一般用系统聚类法来聚类指标，又称分层聚类。
2. 逐步聚类法：适用于大样本的样本聚类
3. 其他聚类法：两步聚类、K均值聚类等
  
  八、主成分分析：
  主成分分析：通过正交变换将一组可能存在相关性的变量转换成一组线性不相关的变量，转换后的这组变量叫做主成分。
  设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。
  缺点： 1、在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

九、时间序列分析：

动态数据处理的统计方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题；时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。
主要方法：移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
时间序列的变动形态一般分为四种：长期趋势变动，季节变动，循环变动，不规则变动。

十、生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法
1、包含内容：
1）描述生存过程，即研究生存时间的分布规律
2）比较生存过程，即研究两组或多组生存时间的分布规律，并进行比较
3）分析危险因素，即研究危险因素对生存过程的影响
4）建立数学模型，即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

十一、典型相关分析

相关分析一般分析两个变量之间的关系，而典型相关分析是分析两组变量（如3个学术能力指标与5个在校成绩表现指标）之间相关性的一种统计分析方法。
典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十二、ROC分析

R0C曲线是根据一系列不同的二分类方式(分界值或决定阈）.以真阳性率（灵敏度)为纵坐标，假阳性率（1-特异度)为横坐标绘制的曲线

十三、其他分析

多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

名词解释：

贝叶斯定理：两个事件完全独立且互斥的情况下，满足条件概率
朴素贝叶斯(Naive Bayesian Model: NBM)：基于贝叶斯定理与特征条件独立假设的分类方法，贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。
朴素贝叶斯分类(NBC): 朴素贝叶斯分类（NBC）是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入求出使得后验概率最大的输出。
马尔可夫：快速精确的语音识别系统的最成功的方法。时间、状态都是离散的马尔可夫过程称为马尔可夫链。马尔可夫链就是一个将来状态分部只取决于现在，跟过去无关的的模型。例如抛硬币，第三次跟第一次第二次无关。
隐马尔可夫模型：含有隐含未知参数的马尔可夫过程，难点是从可观察的参数中确认该过程的隐含参数，并利用这些参数来作进一步的分析，例如：模式识别。