应用roc_auc_score实现指标计算
纪要
3.1 逻辑回归介绍【**】
1.逻辑回归概念
解决的是一个二分类问题<br /> 逻辑回归的输入是线性回归的输出
2.原理
1.输入:
线性回归的输出
2.激活函数
sigmoid函数<br /> 把整体的值映射到[0,1]<br /> 再设置一个阈值,进行分类判断
3.损失
对数似然损失<br /> 借助了log思想,进行完成<br /> 真实值等于0,等于1两种情况进行划分
4.优化
提升原本属于1类别的概率,降低原本是0类别的概率。
3.2 逻辑回归api介绍【*】
sklearn.linear_model.LogisticRegression()
注意:回归,分类api有时候是可以混合使用的
3.3 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测【**】
1.获取数据
2.基本数据处理
2.1 缺失值处理
2.2 确定特征值,目标值
2.3 分割数据
3.特征工程(标准化)
4.机器学习(逻辑回归)
5.模型评估
3.4 分类评估方法【*】
1.混淆矩阵
真正例(TP)<br /> 伪反例(FN)<br /> 伪正例(FP)<br /> 真反例(TN)
2. 精确率(Precision)与召回率(Recall)
准确率:(对不对)<br /> (TP+TN)/(TP+TN+FN+FP)<br /> 精确率 -- 查的准不准<br /> TP/(TP+FP)<br /> 召回率 -- 查的全不全<br /> TP/(TP+FN)<br /> F1-score<br /> 反映模型的稳健性
3.api
sklearn.metrics.classification_report(y_true, y_pred)
4.roc曲线和auc指标
roc曲线<br /> 通过tpr和fpr来进行图形绘制,然后绘制之后,行成一个指标auc<br /> auc<br /> 越接近1,效果越好<br /> 越接近0,效果越差<br /> 越接近0.5,效果就是胡说<br /> 注意:<br /> 这个指标主要用于评价不平衡的二分类问题
5.api
sklearn.metrics.roc_auc_score(y_true, y_score)<br /> y_true -- 要把正例转换为1,反例转换为0
3.5 ROC曲线的绘制【###】
1.构建模型,把模型的概率值从大到小进行排序
2.从概率最大的点开始取值,一直进行tpr和fpr的计算,然后构建整体模型,得到结果
3.其实就是在求解积分(面积)