应用roc_auc_score实现指标计算
纪要
3.1 逻辑回归介绍【**】
1.逻辑回归概念
-   解决的是一个二分类问题<br />        逻辑回归的输入是线性回归的输出
2.原理
1.输入:
-       线性回归的输出
2.激活函数
-       sigmoid函数<br />                把整体的值映射到[0,1]<br />                再设置一个阈值,进行分类判断
3.损失
-       对数似然损失<br />                借助了log思想,进行完成<br />                真实值等于0,等于1两种情况进行划分
4.优化
-       提升原本属于1类别的概率,降低原本是0类别的概率。
3.2 逻辑回归api介绍【*】
  sklearn.linear_model.LogisticRegression()
    注意:回归,分类api有时候是可以混合使用的
3.3 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测【**】
  1.获取数据
    2.基本数据处理
    2.1 缺失值处理
    2.2 确定特征值,目标值
    2.3 分割数据
    3.特征工程(标准化)
    4.机器学习(逻辑回归)
    5.模型评估
3.4 分类评估方法【*】
1.混淆矩阵
-   真正例(TP)<br />        伪反例(FN)<br />        伪正例(FP)<br />        真反例(TN)
2. 精确率(Precision)与召回率(Recall)
-   准确率:(对不对)<br />            (TP+TN)/(TP+TN+FN+FP)<br />        精确率 -- 查的准不准<br />            TP/(TP+FP)<br />        召回率 -- 查的全不全<br />            TP/(TP+FN)<br />        F1-score<br />            反映模型的稳健性
3.api
-   sklearn.metrics.classification_report(y_true, y_pred)
4.roc曲线和auc指标
-   roc曲线<br />            通过tpr和fpr来进行图形绘制,然后绘制之后,行成一个指标auc<br />        auc<br />            越接近1,效果越好<br />            越接近0,效果越差<br />            越接近0.5,效果就是胡说<br />        注意:<br />            这个指标主要用于评价不平衡的二分类问题
5.api
-   sklearn.metrics.roc_auc_score(y_true, y_score)<br />            y_true -- 要把正例转换为1,反例转换为0
3.5 ROC曲线的绘制【###】
  1.构建模型,把模型的概率值从大到小进行排序
    2.从概率最大的点开始取值,一直进行tpr和fpr的计算,然后构建整体模型,得到结果
    3.其实就是在求解积分(面积)