方差膨胀因子
    共线性诊断

    离散型变量的处理:
    如果是二分类变量,即只有Y/N,就处理为两个变量,例如性别,可以取值男、女,那么就演化为两个变量,一个叫性别男,取值为0/1,一个叫性别女,取值0/1。如果有多个取值,也是一样要处理为哑变量或叫虚拟变量,以下为示例,假设专业是一个可以取3个值的离散型变量,那么需要处理为虚拟变量,将其变为3个变量。这里我有个疑问,假设0/1型的可以直接纳入模型,那么岂不是对其他变量很不公平?假设都归一化到[0-1]的情况下,0/1型的轻松就可以达到1,但是其他变量,最大值才可能为1。
    image.png