
有监督分析方法选择
【有因变量,建立有监督模型。】
- 因变量为连续变量(回归预测模型),自变量为连续时,可选择回归分析,方差分析;自变量为分类变量或分类+连续,可选择带虚拟变量的回归分析、联合分析、方差分析。
对数线性回归:预测因变量取值如何分类,
因变量为分类变量(分类预测模型),当自变量为连续变量\(连续+分类),可选用判别分析,Logistic、probit回归等;当自变量全部为分类变量时,可选用对数线性回归。
- 判别分析:由若干个不同总体的样本来构造判别函数,以此决定新的未知类别的样品属于哪一类。例如,某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项症状指标数据。利用这些资料,在测得一个新病人若干项症状指标的数据时,能够判定他患的是哪种病;又如,在天气预报中,利用长时间的记录资料,判断是晴天或下雨等等。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。
- Logistic:Logistic 模型是广义线性模型的一种,该模型用于处理因变量为分类变量的回归问题,最常见的就是因变量为二分类的情况,比如常见的信用评分模型,该模型用于评估个人的信用违约概率。当因变量为分类变量时,该变量不服从正态分布,因此我们无法直接使用普通线性回归模型;其次对于分类变量而言,其数值通常为固定数值,比如二分类变量的取值为0和1,但是普通线性回归模型的预测值可以是任何值,直接利用该模型进行拟合预测时会遇到问题。所以,当因变量为分类变量时,我们需要利用logistic回归模型来处理问题。
- probit回归:probit模型是一种广义的线性模型。服从正态分布。 最简单的probit模型就是指被解释变量Y是一个0,1变量,事件发生地概率是依赖于解释变量,即P(Y=1)=f(X),也就是说,Y=1的概率是一个关于X的函数,其中f(.)服从标准正态分布。
- 对数线性回归:对数线性模型描述的是概率与协变量之间的关系;对数线性模型也用来描述期望频数与协变量之间的关系。
小结
有监督模型两大通用目的:
- 分析那些自变量对因变量存在显著影响作用。
- 通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型。

无监督分析方法选择
对于一个抽象指标通常有多个客观来衡量。无监督分析都叫做描述分析,无监督分析方法得到的结论没有客观标准判断对错。
无因变量(无监督模型)
目的:
- 对人进行分类
- 对变量、指标进行分类
- 分析变量与变量之间的测量关系
自变量=连续:选择因子分析(对指标、变量分类)聚类分析(对人分类,对指标、变量分类)。
自变量=分类:对应分析(对人分类),多为尺度分析(对人分类)
因子分析:是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
聚类分析:从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。


其他分析

当模型中需要加入潜在变量(通过过个客观指标测量的抽象概念)或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差分析等。
综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等。
总结
无监督分析规则

