学习目标

  • 知道逻辑回归的损失函数
  • 知道逻辑回归的优化方法
  • 知道sigmoid函数
  • 知道逻辑回归的应用场景
  • 应用LogisticRegression实现逻辑回归预测
  • 知道精确率、召回率指标的区别
  • 知道如何解决样本不均衡情况下的评估
  • 了解ROC曲线的意义说明AUC指标大小
  • 应用classification_report实现精确率、召回率计算
  • 应用roc_auc_score实现指标计算

    纪要

    3.1 逻辑回归介绍【**

    1.逻辑回归概念

    1. 解决的是一个二分类问题<br /> 逻辑回归的输入是线性回归的输出

    2.原理

    1.输入:
    1. 线性回归的输出
    2.激活函数
    1. sigmoid函数<br /> 把整体的值映射到[0,1]<br /> 再设置一个阈值,进行分类判断
    3.损失
    1. 对数似然损失<br /> 借助了log思想,进行完成<br /> 真实值等于0,等于1两种情况进行划分
    4.优化
    1. 提升原本属于1类别的概率,降低原本是0类别的概率。

    3.2 逻辑回归api介绍【*】

    sklearn.linear_model.LogisticRegression()
    注意:回归,分类api有时候是可以混合使用的

    3.3 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测【**】

    1.获取数据
    2.基本数据处理
    2.1 缺失值处理
    2.2 确定特征值,目标值
    2.3 分割数据
    3.特征工程(标准化)
    4.机器学习(逻辑回归)
    5.模型评估

    3.4 分类评估方法【*

    1.混淆矩阵

    1. 真正例(TP)<br /> 伪反例(FN)<br /> 伪正例(FP)<br /> 真反例(TN

    2. 精确率(Precision)与召回率(Recall)

    1. 准确率:(对不对)<br /> TP+TN)/(TP+TN+FN+FP)<br /> 精确率 -- 查的准不准<br /> TP/(TP+FP)<br /> 召回率 -- 查的全不全<br /> TP/(TP+FN)<br /> F1-score<br /> 反映模型的稳健性

    3.api

    1. sklearn.metrics.classification_report(y_true, y_pred)

    4.roc曲线和auc指标

    1. roc曲线<br /> 通过tprfpr来进行图形绘制,然后绘制之后,行成一个指标auc<br /> auc<br /> 越接近1,效果越好<br /> 越接近0,效果越差<br /> 越接近0.5,效果就是胡说<br /> 注意:<br /> 这个指标主要用于评价不平衡的二分类问题

    5.api

    1. sklearn.metrics.roc_auc_score(y_true, y_score)<br /> y_true -- 要把正例转换为1,反例转换为0

    3.5 ROC曲线的绘制【###】

    1.构建模型,把模型的概率值从大到小进行排序
    2.从概率最大的点开始取值,一直进行tpr和fpr的计算,然后构建整体模型,得到结果
    3.其实就是在求解积分(面积)