信用风险评分卡研究 马姆杜·雷法特
基于sas的开发和实施

《信用风险评分卡研究》 马姆杜·雷法特 - 图1

1. 第一章 评分卡的开发过程

1.1. 1.1 标准评分卡

1.2. 1.2 评分卡的开发流程

1.3. 1.3 问题准备

1.4. 1.4 数据获取与整合

1.5. 1.5 EDA与数据描述

1.6. 1.6 数据准备

1.7. 1.7 变量选择

1.8. 1.8 模型开发

1.9. 1.9 模型验证

1.9.1. 通常所有预测模型要符合四项基本要求:

1.9.1.1. 可接受的准确性水平

1.9.1.2. 必须稳健

1.9.1.3. 必须简洁

1.9.1.4. 必须有意义

1.10. 1.10 评分卡创建与刻度

1.11. 1.11 评分卡实施

1.12. 1.12 拒绝演绎

1.13. 1.13 检测和报告

2. 第二章 数据获取与整合

2.1. 2.1 引言

2.2. 2.2 变量类型

2.3. 2.3 建模视图

2.4. 2.4 数据来源

2.5. 2.5 建模和实施窗口

2.5.1. 行为评分卡是特定时间段的建模窗口视图开发的,信贷中通常6个月,信用卡申请通常12个月

2.6. 2.6 数据校准

2.7. 2.7 数据合并

2.7.1. 每个客户的多行数据转换为一行

2.7.2. 聚集函数

2.8. 2.8 数据整合

2.9. 2.9 完整性检验

2.9.1. 行级的唯一性

2.9.2. 范围和取值

2.9.3. 缺失值

2.9.4. 样本的完整性

3. 第三章 EDA与数据描述

3.1. 3.1 引言

3.1.1. EDA

3.1.1.1. 1.描述性统计,每个变量的单变量的统计

3.1.1.2. 2.评估每个单变量值的分布并检验正态假设

3.1.1.3. 3.极端值的识别和处理

3.1.1.4. 4.缺失值的计算和处理

3.1.1.5. 5.关键变量的列联表以及表格中统计量的计算

3.1.1.6. 6.变量间的相关性和关联性指标的计算

3.2. 3.2 单变量统计量

3.3. 3.3 变量分布

3.4. 3.4 特征分析

3.4.1. 特征分析的目的是揭示违约率和备选预测变量之间的关联性

3.5. 3.5 列联表

3.5.1. 两个或多个变量建立的频率表

3.6. 3.6 极端值的识别

3.6.1. 1、根据范围识别(均值+-3标准差)

3.6.2. 2、聚类

3.6.3. 3、多级识别极端值

3.6.3.1. 先用范围再聚类

3.6.4. 4、决策树

3.6.5. 5、特定函数拟合

3.7. 3.7 极端值的处理

3.7.1. 缺失超过10%

3.7.1.1. 调查是否需要针对每个群体开发单独模型/评分

3.7.2. 1、转换为缺失值

3.7.3. 2、填补

4. 第四章 预测力指标

4.1. 4.1 引言

4.2. 4.2 符号

4.3. 4.3 皮尔森相关系数

4.3.1. 衡量连续型变量

4.4. 4.4 斯皮尔曼相关系数

4.4.1. 衡量等级变量/离散有序变量

4.5. 4.5 皮尔森卡方统计量

4.5.1. 衡量两个名义变量的关联性

4.6. 4.6 似然比检验统计量

4.6.1. 找出能够获得一个名义变量的类别的一定频率的概率

4.7. 4.7 概率比

4.7.1. 计算概率比及置信区间判断变量间的关联性

4.8. 4.8 F检验

4.8.1. 衡量一个连续变量和一个名义变量之间的关联性

4.9. 4.9 基尼方差

4.9.1. 衡量三种情况下变量之间关联性的指标

4.9.1.1. 1、一个连续变量和一个名义变量or顺序变量

4.9.1.2. 2、两个名义变量

4.9.1.3. 3、两个顺序变量

4.10. 4.10 熵方差

4.10.1. 衡量一个类别变量x和一个连续变量y的情况

4.11. 4.11 信息值

4.11.1. 衡量两个名义变量,其中一个是二分类变量,之间关联性的指标

4.11.2. IV大于0.3 强预测力,IV小于0.02无预测力

4.12. 4.12 变量选择的自动化

5. 第五章 数据准备

5.1. 5.1 引言

5.2. 5.2 降低基数

5.2.1. 当名义变量的类别超过12个时候,降低基数就很有必要了

5.2.2. 1、将相同含义的变量合并

5.2.3. 2、将出现频率小的类别合并为一个新类别,other

5.2.4. 3、合并变量的类别使某些指标的预测力最大化

5.2.4.1. 要求:该指标要适合用于处理二分类变量和一个名义变量

5.2.4.2. 进行最优分组的方法

5.3. 5.3 连续变量的分段

5.3.1. 连续变量必须分段,以允许使用标准评分格式

5.3.2. 1、等距分段

5.3.3. 2、最优分段

5.4. 5.4 抽样和权重计算

5.4.1. 1、抽样方法

5.4.2. 2、抽样规模

5.4.3. 3、随机抽样

5.4.4. 4、均衡抽样和权重

5.4.5. 5、计算样本权重

6. 第六章 信用卡样本数据集

6.1. 6.1 引言

6.2. 6.2 数据字典

7. 第七章 LR

7.1. 7.1 引言

7.2. 7.2 基本公式

7.3. 7.3 似然方程

7.4. 7.4 信息矩阵

7.5. 7.5 参数估计

7.6. 7.6 模型拟合统计量

7.7. 7.7 Hosmer-Lemeshow 检验

7.7.1. 将建模数据分成一定数量的段,并比较每段实际和估计的违约数量,然后通过计算类似卡方统计量的统计量,通过显著性评估

7.7.2. 结果要拒绝原假设、显著性、模型才有意义

7.8. 7.8 全局零假设的检验

7.8.1. 对模型质量评估是对所有参数都实际为0进行检验。该假设的目的是检验当前模型是否由于抽样结果而偶然得到,而不是由真实的基础模型生成的数据得到。该检验是用于判断模型真实成立而不是偶然产物的一个标准工具

7.8.2. 用于零假设的统计量

7.8.2.1. 1、似然比统计量

7.8.2.2. 2、分数统计量

7.8.2.3. 3、沃尔德统计量

7.9. 7.9 分数统计量

7.10. 7.10 模型参数的解释

7.11. 7.11 概率比置信区间

7.12. 7.12 先验概率和权重

8. 第八章 粗分类和WOE

8.1. 8.1 引言

8.2. 8.2 WOE的定义

8.3. 8.3 WOE的含义

8.3.1. WOE是概率比调整后的对数

8.3.2. 第i类中违约与正常的比率与整个样本中违约与正常比率的比值的对数。

8.3.3. 衡量第i类对违约与正常比率的影响程度

8.3.4. 如果一个已经用经过了WOE转换的自变量对LR模型进行拟合则该变量对应的模型参数正好是1.0

8.4. 8.4 证据权重与标准评分卡

8.5. 8.5 SAS实现

8.6. 8.6 连续变量的WOE

9. 第九章 变量选择的方法

9.1. 9.1 引言

9.2. 9.2 选择方法概述

9.3. 9.3 逐步变量选择

9.4. 9.4 强制变量进入模型

9.5. 9.5 控制变量选择顺序

9.6. 9.6 LR结果

10. 第十章 模型评估

10.1. 10.1 引言

10.2. 10.2 验证和混合矩阵

10.3. 10.3 提升图和洛伦兹曲线

10.3.1. 提升图主要通过随机选择比较模型表现、还可以识别任何隐藏模型的问题

10.3.2. 洛伦兹曲线是违约数占违约总量百分比的累计值

10.4. 10.4 基尼系数

10.5. 10.5 k-s曲线和统计量

10.6. 10.6 ROC曲线和c-统计量

10.7. 10.7 整体模型评估

11. 第十一章 评分卡刻度与实施

11.1. 11.1 标准格式

11.2. 11.2 评分卡刻度

11.3. 11.3 分值分配

11.4. 11.4 SAS实施

11.5. 11.5 设定临界值水平

12. 第十二章 检测和报告

12.1. 12.1 报告的目的

12.2. 12.2 稳定性报告

12.3. 12.3 评分卡要素分析

13. 第十三章 拒绝和演绎

13.1. 13.1 定义和理由

13.1.1. 申请评分卡和行为评分卡

13.1.2. 在申请评分卡的时候,模型开发使用的数据实际上是从过去已经被接受的账户选择的(这也叫幸存者偏差)

13.2. 13.2 拒绝演绎的方法

13.2.1. 1、简单赋值法

13.2.1.1. 由分析人员将被拒绝的账户指定为正常or违约

13.2.2. 2、通过外推法将模型范围扩展到被拒绝记录的方法。这些方法通常称为强化法。

13.3. 13.3 简单赋值法

13.4. 13.4 强化法

13.4.1. 1、简单强化

13.4.2. 2、模糊强化

13.4.3. 3、打包

13.5. 子主题 5

14. 参考文献