银行客户借贷违约预测分析
    摘要
    借贷问题由来已久,而且如今借贷越发普遍,几乎人人都可能会进行金额大小不等的借贷。那么如何在大数据发展下,在海量客户数据中挖掘有效数据从而帮助银行对客户借贷情况进行评估预测预警。
    本文基于此原因,对银行客户的借贷数据进行分析。首先明确任务目标,建立建模流程图,对数据采集、清理、抽样、建模到最后得到结论。在数据清理上,本文借助SAS软件编写了多个宏用来检验数据有无重复观测,有无观测值上的缺失,对异常值进行剔除,对原始数据进行有必要的标准化等。在数据抽样上采用欠抽样和SMOTE抽样,然后对这两种抽样分别进行了logistic回归预测和决策树预测的实证研究。其中在数据变量选择中本文采用了基于logistic回归的卡方值、K-means聚类和因子分析的变量筛选降维。在后面对两种不同抽样方法和两种模型进行了交叉对比,实证得到由SMOTE抽样建立的模型普遍要优于欠抽样模型,在SMOTE抽样下的logistic回归预测模型的AUC达到0.792,决策树预测模型的AUC达到0.815,说明两种模型都是切实可行的。从最初的627个变量到最后建模完成,经logistic回归预测模型得到最后的12个变量,经决策树预测模型得到的7个变量。此外,在决策树模型中得到活期存款平均开户时长、持有定期存款标志、负债情况、消费次数这四个变量重要程度很高。由此可以作为在变量较多的模型下进行筛选的一种参考,需要重点考虑。
    最后,在对当前我国银行业运行借贷违约预测模型进入了深入研究的基础上,并进行深入思考,并提出了一些对数据分析过程的想法。对研究的创新点进行了说明,并阐述了尚待解决的问题和后续研究上的一些建议。

    关键词:欠抽样;SMOTE算法;logistic回归;决策树
















    Bank Customer Loan Default Prediction Analysis
    Abstract
    The problem of borrowing has been around for a long time, and nowadays borrowing is becoming more common, and almost everyone can make loans of varying amounts. Then how to develop effective data in massive customer data under the development of big data to help banks evaluate and forecast the customer loan situation.
    For this reason, this paper analyzes the loan data of bank customers. First, define the mission objectives, establish a modeling flow chart, and draw conclusions on data collection, cleanup, sampling, and modeling. In data cleaning, this paper uses SAS software to write a number of macros to check whether the data has repeated observations, whether there are missing observations, to eliminate the outliers, and to standardize the original data. Undersampling and SMOTE sampling were used on the data sampling, and then empirical research on logistic regression prediction and decision tree prediction was carried out for the two samples. Among them, in the data variable selection, the logistic regression, the K-means clustering and the factor analysis are used to filter the dimensionality reduction. In the following, the two different sampling methods and the two models are cross-correlated. It is empirically found that the model established by SMOTE sampling is generally better than the under-sampling model. The AUC of the logistic regression prediction model under SMOTE sampling reaches 0.792, and the decision tree The AUC of the prediction model reached 0.815, indicating that both models are feasible. From the initial 627 variables to the final modeling, the last 12 variables were obtained by the logistic regression prediction model, and the 7 variables obtained by the decision tree prediction model. In addition, in the decision tree model, the four variables of average account opening time, holding time deposit signs, liabilities, and consumption times are highly important. Therefore, it can be used as a reference for screening under the model with more variables, which needs to be considered.
    Finally, on the basis of the in-depth study of the current bank lending default prediction model in China, and deep thinking, and put forward some ideas for the data analysis process. The innovation of the research is explained, and the problems to be solved and some suggestions on the follow-up research are explained.

    Key words:Undersampling; SMOTE algorithm; Logistic regression; Decision tree






    目录
    银行客户借贷违约预测分析……………………………………………………………………………….. I
    摘要……………………………………………………………………………………………………………….. II
    第一章 引言………………………………………………………………………………………………….. 1
    1.1 论文选题背景与研究意义………………………………………………………………………. 1
    1.2 研究概述……………………………………………………………………………………………… 2
    1.3 论文总体结构………………………………………………………………………………………. 3
    第二章 数据处理与分析………………………………………………………………………………….. 4
    2.1 变量名称解释………………………………………………………………………………………. 4
    2.2 数据预处理………………………………………………………………………………………….. 4
    2.3 数据探索……………………………………………………………………………………………… 6
    2.4 非平衡数据的处理………………………………………………………………………………… 8
    第三章 logistic模型实证研究……………………………………………………………………… 11
    3.1 模型主要原理……………………………………………………………………………………… 11
    3.2 模型变量筛选……………………………………………………………………………………… 11
    3.3 模型结果及检验………………………………………………………………………………….. 14
    3.4 logistic模型小结………………………………………………………………………………. 16
    第四章 决策树模型实证研究………………………………………………………………………….. 17
    4.1 模型主要理论……………………………………………………………………………………… 17
    4.2 模型的训练和验证………………………………………………………………………………. 17
    4.3 决策树模型小结………………………………………………………………………………….. 19
    第五章 结论与展望……………………………………………………………………………………….. 20
    5.1 主要结论和创新点………………………………………………………………………………. 20
    5.2 展望………………………………………………………………………………………………….. 21
    参考文献……………………………………………………………………………………………………. 22
    附录…………………………………………………………………………………………………………… 23
    致谢…………………………………………………………………………………………………………… 41


    第一章 引言
    1.1 论文选题背景与研究意义
    1.1.1 选题背景
    如今借贷的风险无处不在,而且由来已久。从历史遥远的商周时期,民间的高利贷活动已经存在,当地富豪和官僚会放款给当地的耕农,利率极高,这导致大量的借款者借款后不能偿还。古时候的借贷是皇族和官僚利益冲突的核心,这也是政治矛盾的一个经济投影。农民的土地大量被收走或是收缴,就是生产资料开始向官僚或是地主阶级移动。这样长期以往就导致经济失调。以前控制借贷问题是通过东厂或者直接杀人。明成祖朱棣设立东厂,这是世界上最早设立的国家特务情报机关,它不受法律或者别的约束。朱棣用东厂来制约官僚集团和大地主阶级在对农民的借贷情况。从借贷问题是可以上升到信用风险问题,这也是为什么选择借贷违约为题的一个重要原因,从借贷问题上可以反映信用风险问题。因为人与人之间的经济交往与社会经济运作密不可分,与现在的银行有着许多千丝万缕的联系,每个人都需要用钱,就可能需要去借钱。于是就产生了很多借贷问题,有借款从而也有还款的情况,有借有还,有借不还等等。从而借贷的人和放贷的人都有违约的情况,由此它伴随着许多风险,这是一把双刃剑。它给我们生活带来了很多麻烦和困惑,但是同时为世界带来了巨大的帮助,现在各种中小型贷款机构遍地都是,这也为很多创业者和购房者带来了诸多方便。
    由于社会和经济的快速变化,社会趋势不断变化,借贷风险的内部机制变得越来越复杂。研究人员主要通过理论描述,定性分析和经验模型进行研究。同时,为了控制借贷风险的成本并预测客户的违约情况而达到预警的目的,模型技术的方法正变得越来越普遍。一般而言,所有主要的银行金融机构现在都有自己的一套贷款风险系统,还会用于对客户进行信用风险评级,分析客户的行为,并由此来预测客户贷款是否违约。通过对贷款风险模型的研究,深化了违约预测方法的不断创新和进步。然而,从目前模型的应用来看,大量经验模型的规范性论证和有效应用尚未经过时间的考验,还需要继续去创新新的方法新的模型去做实证研究。

    1.1.2 研究意义
    银行等金融机构对借贷的管理和信用风险的评级是机构内部的重点,牵涉到信贷部门,审贷部门,资产部门等多个重要部门。在我们生活中经常会有因为要去做投资或者是去买车买房而导致资金周转不过来的情况,这个时候大部分人会向银行进行贷款。银行根据该银行所在国家政策以一定的利率将资本贷放给资金需求的个人或企业,并按照约定期限归还,就这样形成了借贷关系。现有的几种贷款方式有创业贷款、抵押贷款、质押打款、保证贷款等。在借贷上主要讲究的是一个信誉信用问题,所以研究客户的行为,给客户构建画像这些都是很有必要,此外还可以将这些应用到信用风险上,对客户进行信用评级从而达到预测预警的目的。如何对银行客户借贷风险程度进行评估分类,特别是对潜在客户进行风险预测已经成为各大银行和金融机构重点关注的问题。如果能把现行的所有借贷问题都能统一用一个模型或者几个模型去解决,这会十分方便对于银行和金融机构去选择给什么人放贷放多少。借贷违约的预测给银行和金融机构提供了多维、专业、标准、有效的管理手段。本文是对银行贷款客户违约与否的预测预警有很重要的研究意义,简要叙述如下:
    (1)在数据处理上,如何对少数类样本进行处理,本文采取了两种抽样方法进行对比,这给后续发展提供了相关思路。
    (2)在模型的选取上,采用传统的logistic回归和决策树来预测。
    (3)对客户违约率的预测十分重要,这影响到对每一个客户的信用评分。
    (4)对客户违约与否的预测便于银行对客户建立预警模型。
    (5)商业银行在运营过程中会承担很多风险,如果能及早发现这种违约的情况,并揭示客户存在的一些风险然后针对性地采取相关的措施,将会大大减少贷款的损失。
    1.2 研究概述
    1.2.1 问题界定
    本文的数据是采集某银行近半年来的一部分客户贷款数据,总共有80000条观测,627个变量,其中影响变量就是违约不违约这个变量。银行客户贷款违约与否的核心是对这个违约率分析,违约不违约这个结果是一个二分类变量,由此本文对其进行logistic回归预测、决策树预测,以实现对客户违约的预测。建立这三个模型然后由此对比分析,探寻哪种模型更加适合对客户违约的预测,从而便于银行等金融机构建立起客户违约预测预警模型。具体来说:研究分为以下几个问题:
    (1)如何选择合适的变量对违约进行预测,选取这些变量很重要,选取的变量太多会导致模型比较复杂,若选取的变量太少又会导致建模信息不够多,得到的预测结果不够好。
    (2)尝试用不同的模型技术分析结果之间的相似性和差异性,从而对模型在不同的情况中进行有效性的比较,为以后模型的选取提供参考依据。
    (3)从统计角度分析,如何评估模型的优劣,并从哪些角度可以提高模型预测的准确率,给银行提供一些切实可行的方案。

    1.2.2 研究思路
    根据所要解决的问题,本文提出的研究思路如下:
    通过文献检索和资料分析,对目前已经开展研究的借贷人违约预测的方法研究进入了深入的了解,掌握了对数据处理的分析以及如何做好数据集划分的准备,对统计模型的原理也做更全面的分析。
    基于本文80000条观测,627个变量的数据集,先进行数据处理,检验有无重复观测和者有无缺失值并进行处理。然后对数据集进行划分,对数据集的采样采取了过抽样和欠抽样两种方法,最后按照7:3的比例分为训练集和验证集。然后对违约标志变量有影响的相关变量进行筛选,然后建立logistic回归预测模型和决策树模型。不同模型在不同抽样方法下的结果进行比较分析,并对模型进行检验。进而对模型反映出来的违约情况进行深入研究。
    基于对不同抽样方法得到的结果进行比较,分析这些抽样方法的特点、优缺点。从而对模型的实际选择抽样的方法提供一些可靠的参考依据。
    基于对不同模型的比较分析,研究一个合适的违约预测模型,提出能有效标识违约的重要变量或指标,对银行和金融机构提供重要的违约风险判断依据和判别指导。
    鉴于目前客户借贷违约预测的研究是有百家争鸣、万花齐放的阶段,基于不同的数据来源,很多学者采用了不同的方法进行实证研究。本文依托同一个数据来源,采用两种模型方法,对数据集采用两种抽样方式,探寻一个最优的抽样和最合适的模型。对客户违约预测提供有力的依据。
    本文所开展的实证技术分析工作主要有:基于经济学、统计学的多种实证模型及检验方法,运用大量实际数据进行模型生成、验证、比较分析工作,通过设计对违约概率的预测,由此开展的实证模型研究。
    本文所使用的软件工具主要有:EXCEL、SAS等软件。
    1.3 论文总体结构
    本文总体分为六章,每章做的具体内容如下:
    第一章引言,主要介绍了本文研究的背景、选题研究的意义、分析的思路、所选用的模型和论文基本结构等内容,重点阐述了论文选题意义和问题分析思路。
    第二章数据处理与分析,对数据进行EDA探索分析,检验数据集有无重复观测,有无缺失值等等,并对字符变量进行转换。接着对非平衡数据处理,主要采用欠抽样和SMOTE抽样两种抽样方法对数据集进行划分,最后按照7:3划分得到建模数据集和验证集。
    第三章logistic模型实证研究,基于logistic模型原理,本章利用聚类分析、每个变量对响应变量进行逐个logistic回归、因子分析进行降维筛选特征变量,最后进行模型的训练。通过AUC指标进行评估模型及抽样方法。其中对模型实际运用过程中需要处理的主要问题进行了重点剖析。
    第四章决策树模型实证研究,利用SAS的hpsplit构建的决策树C4.5模型。利用修枝剪枝对两种抽样方法的比较,并得到较优模型。分析得到的重要变量。
    第五章结论与展望,得到较优的抽样方法和建模方法进行预测,并提出一些现在存在的问题和未来期望。
















    第二章 数据处理与分析
    前期的数据处理尤为重要,本文实证研究的数据来源于某银行内部的部分借贷数据。前期把数据清理筛选好了,在后面建立模型时才会运用方便。
    2.1 变量名称解释
    原始数据一共有627个变量,这里展示了前十个变量名称和标签及更改过后的变量名称见表1。若不对变量名更改,在后面对变量筛选和处理的时候会因为变量名有的过长而导致编程出错,且统一更改后便于查询。

    表1.变量名解释

    变量名称 标签 更改后的变量名
    CUST_ID 客户号 v_1
    OPEN_ORG_NUM 开户机构 v_2
    IDF_TYP_CD 证件类型 v_3
    GENDER 性别 v_4
    BAD_GOOD 违约标志(bad=1) v_5
    LAST_OPEN_TENURE_DAYS 信用卡最近开户时长 v_6
    G_OS_PRCP_SUM 贷款账户月余额 v_7
    OS_PRCP_SUM_THREE 三个月内贷款账户月均余额 v_8
    OS_PRCP_SUM_SIX 六个月内贷款账户月均余额 v_9
    GUOZAI_FLAG 国债 v_10
    1. (全部变量名见附录)<br /> 主要是一些客户的基本信息和贷款消费等信息解释。<br />2.2 数据预处理<br />2.2.1 检验有无重复观测<br /> 因为是80000条观测,即80000个客户,从数据集变量列表得到客户的编号是cust_id这个变量名。为了检验这里80000条观测都是唯一的,编写了一个SAS宏程序%ExtUnique来进行检验。SAS宏程序的好处,它减少代码运行的时间,减少代码运行的错误在不同的编辑情况下,而且在某些情况下它更有效率。通过%ExtUnique宏程序检验发现没有重复的观测,说明数据集的80000条观测都是唯一的观测。<br /> <br />2.2.2 变量批量改名<br /> 进行数据分析时因为变量的名字太多,进行分析时可能会因为有的变量名字太长而导致编程结果出错,故在这里采取对变量进行统一重新命名。把627个变量重新命名为v_1v_627。<br /> <br />2.2.3 对数值型变量进行标准化<br /> 由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。所以在这里先对数值型变量进行标准化处理,将变量下的每一个观测值减去其变量的均值,并除以其标准差就得到标准化的值了。这样变量列下的数据都聚集在0附近,方差为1。<br /> <br />2.2.4 缺失值处理<br /> 原始数据中不可避免地会存在着一些缺失值,或者是拼写错误等“脏”数据,它们将会误导数据挖掘分析,因此需要人为的进行数据清洗筛选来提高数据的质量。本文对所有列的变量均进行了缺失值检验,检验后发现所有数据并无缺失值。字符变量的缺失值检验,利用SASproc freq分析。<br /> <br />表2.v_3频率分析
    v_3 频数 百分比 累积百分比 v_3 频数 百分比 累积百分比
    ZR01 78173 97.72 97.72 ZR09 51 0.06 98.93
    ZR02 1 0 97.72 ZR10 2 0 98.93
    ZR03 562 0.7 98.42 ZR11 54 0.07 99
    ZR04 151 0.19 98.61 ZR12 1 0 99
    ZR05 39 0.05 98.66 ZR13 3 0 99
    ZR06 41 0.05 98.71 ZR20 257 0.32 99.32
    ZR07 86 0.11 98.82 ZR21 248 0.31 99.63
    ZR08 36 0.05 98.86 ZR22 295 0.37 100


    表3.v_175频率分析

    v_175 频数 百分比 累积频数 累积百分比
    0 6600 8.25 6600 8.25
    1 367 0.46 6967 8.71
    N 73033 91.29 80000 100.00


    表4.v_176频率分析

    v_176 频数 百分比 累积频数 累积百分比
    0 6860 8.58 6860 8.58
    1 107 0.13 6967 8.71
    N 73033 91.29 80000 100.00

    (部分结果如下,全部的见附录字符频率分析)

    发现没有缺失值,但是有一些值又有数字又有字母,比如v_175、v_176对应的值有数字1还有字母N,故对这里不同类型的值进行统一编码。在这里将把数字统一转换成字母。

    2.2.5 异常值处理
    异常值的存在也会影响我们的分析,可能会对模型带来一些偏差。因此它需要密切注意,否则可能导致错误的估计。这里处理是根据范围和聚类分析来发现异常值并进行剔除。

    (1)根据范围识别极端值
    利用3Sigma原则对一个变量求得均值,标准差,若这个值在均值±3倍标准差之间。此时可以尝试通过找出这个范围之外的观测值来识别极端值。

    (2)根据聚类识别极端值
    利用K-means聚类来识别极端值。K-means算法有时会生成一些只包含少数观测的群。检查这些小型群的观测值通常会发现其中的聚类变量的取值与其他数据存在显著差异,这个特征使得K-means算法作为识别极端值的一种很受欢迎的工具。经过前面的异常值极端值剔除后最后数据集loan.clust_out还剩下20335个变量。
    2.3 数据探索
    2.3.1 字符变量分析
    I.字符变量对响应变量的IV计算
    信息值IV是衡量两个名义变量关联性或是相关性的一个指标。它要求其中一个必须是二元变量。在logistic回归中是不允许自变量之间是相互线性的关系。而且在一个模型中使用一系列具有很强相关性的变量作为预测变量,即使建模算法允许,最后得到的模型也只是根据有限数量的独立信息片段做出预测。可以预见到这种模型做出的预测要比使用更广泛的自变量数据建立的模型预测力弱。如果把大量的字符变量转换成数值型变量直接放到模型中去,这样其实真正对模型有效只有少数变量的关键信息,故在这里对字符变量计算一下信息值。分别用1和0表示二元值。其中y是二元变量。信息值的公式如下:
    银行客户借贷违约预测分析 - 图1 (2.1)
    或者IV也可以定义为:
    银行客户借贷违约预测分析 - 图2 (2.2)
    其中IV的解释预测力表格如下:
    表5.IV解释预测力

    IV的范围 预测力 IV的范围 预测力
    小于0.02 无预测力 0.10到0.30 中等
    0.02到0.10 大于0.30


    由上表可以得到,IV值在0.1以上的变量的预测力就可以达到中等。故本文在对字符变量挑选的时候,是采取挑选IV值在0.1以上的变量,计算出来的IV值见表6。



    表6.计算的IV值

    Obs 变量 IV obs 变量 IV Obs 变量 IV
    1 v_180 0 8 v_39 0.00005 15 v_182 0.0079
    2 v_32 0 9 v_175 0.00012 16 v_40 0.01824
    3 v_33 0 10 v_34 0.00016 17 v_4 0.0386
    4 v_42 0 11 v_35 0.00107 18 v_174 0.05307
    5 v_44 0 12 v_43 0.00641 19 v_97 0.08864
    6 v_45 0 13 v_181 0.00732 20 v_31 0.18472
    7 v_37 0.00001 14 v_183 0.00771 21 v_172 0.3565


    由上表通过判断因变量和候选变量之间的关联性水平就可以过滤掉预测力较低的一些变量。这里得到v_31、v_172的IV值在0.1以上。

    II.字符变量压缩
    在SAS的logistic模型中,SAS对字符变量的处理方式有两种方式:一种是通过class语句,系统在执行该语句时会自动把class语句后面所有的变量转化成哑变量。换句话说,如果一个字符变量有Q个类别,则系统会自动生成Q-1个哑变量。另外一种处理方式是人工处理,把字符变量转换成哑变量。但无论是哪一种方法,哑变量很多的情况下,自由度就会损失很多,从而导致预测失真。一般字符变量有很多类别的时候(一般三个以上),就需要对其压缩。
    压缩的思想是把原有类别进行聚合,使得聚合后的类别之内相对于预测变量的离差平方和最小,而类别之间达到最大,所用到的统计思想就是聚类分析。在前面已经对数据集中的字符变量做了频率分析,发现只有字符v_3(见表2)需要进行压缩。本文这里对v_3的压缩采取聚类方法进行降维。聚类结果见表7。

    表7.v_3变量的CLUSTER聚类结果

    聚类数 频数 R方 聚类数 频数 R方
    1 20355 0 6 520 0.997
    2 19835 0.57 7 19608 0.999
    3 198 0.96 8 412 1
    4 19637 0.989 9 29 1
    5 122 0.994 10 24 1


    在聚类数为3的时候,R方的解释都就已经达到90%以上了,所以在这里取3个聚类数。因为这里是对观测值进行聚类,就是对v_3变量下的数据聚类,然后不同的观测划分类的结果见表8。

    表8.v_3变量的观测聚类结果

    类别 v_3 类别 v_3
    1 ZR06 2 ZR01
    1 ZR08 2 ZR04
    1 ZR09 2 ZR07
    1 ZR11 3 ZR05
    1 ZR03 3 ZR22
    1 ZR20 3 ZR21


    然后去掉v_3变量,转换成lc1、lc2、lc3这三个数值变量。v_31、v_172要转换成哑变量,其余字符变量去掉。替换后的结果如下表9。

    表9.字符转换后的名称

    原变量名 标签 新变量名
    IDF_TYP_CD 证件类型 lc1
    IDF_TYP_CD 证件类型 lc2
    IDF_TYP_CD 证件类型 lc3
    DEP_TD_FLAG 持有定期存款标志 v_172_c
    CUST_SALARY_FINANCIAL_FLAG 是否薪资理财 v_31_c


    到这里就已经把数据的基本处理给解决完了,且字符变量也已经转换成数值变量。接下来是对数据进行抽样,方便训练模型和验证模型。
    2.4 非平衡数据的处理
    在经过前面的数据预处理筛选最终得到的数据集loan.change_clustchar有20355条观测,经过频率分析,发现响应变量v_5的违约客户仅有1083位,未违约的客户有19272位。如表10。

    表10.v_5频率分析

    v_5 频数 百分比 累计频数 累计百分比
    0 19272 94.68 19272 94.68
    1 1083 5.32 20355 100


    这样的数据是极其不均衡的,如果直接用这个数据去做预测,可能会导致预测结果不准确,导致不准确的原因是许多模型的输出类别是基于阈值的。比如logistic回归中以小于0.5为0大于0.5为1,在数据不均衡的情况下,采取选择默认的阈值会导致模型输出倾向类别数据多的那一个类别。而且模型应用范围就会不广泛。而且在大型的数据库中,数据量过多不进行抽样的化会很大大降低计算机运行效率。因此这里必须进行抽样,在实际应用中,解决办法有三种:第一种是调整分类的阈值,使得更倾向于类别少的数据。第二种是选择合适的评价指标。第三种是抽样方法,一般分为欠抽样和过抽样两种方法。下面我对这种非平衡的数据进行了几种方式处理。

    2.4.1 欠抽样
    欠抽样是丢弃大量数据,和过抽样都有可能会造成过拟合的问题。对v_5中少的一类即v_5=”1”的类筛选出观测总数为1000的样本,从v_5=”0”的类筛选出观测总数为1000的样本。经过欠抽样的数据集为训练集loan.bpractice和验证集loan.btest见表11和表12。

    表11.欠抽样的训练集

    v_5 频数 百分比 累计频数 累计百分比
    0 700 50 700 50
    1 700 50 1400 100


    表12.欠抽样的验证集

    v_5 频数 百分比 累计频数 累计百分比
    0 300 50 300 50
    1 300 50 600 100


    这两个数据集是按照7:3的比例,故loan.bpractice数据集有1400条观测,loan.btest有600条观测。

    2.4.2 SMOTE抽样
    由于随机采样采取简单复制样本的策略来增加少数类样本,或是采用欠抽样的方式,这样容易产生模型过拟合问题和数据信息运用得比较少。即使得模型学习到的信息较少而不够泛化,使得模型失真预测不准等情况。
    如果采用数据合成的SMOTE算法,即合成少数类过采样技术,它就能很好地避免上述情况。它是基于随机过采样算法的一种改进方案。SMOTE算法的基本思想是对少数类的样本进行人工合成新样本。
    采样的方法一般比调整阈值好,所以我这里就只做采样方法的对比了,此外由于数据合成的SMOTE方法和过抽样有些类似我这里就只对不处理和欠抽样以及SMOTE对比了。经过SMOTE算法合成并抽样的数据集为loan.practice和loan.test。下面介绍下SMOTE算法:
    本算法是类似于“插值”的一种方法,用来为少数类合成新的样本,增加其样本量。下面介绍如何来合成新的样本。
    在这里我们设置训练集中的一个少数类的样本数为M,那么SMOTE合成算法将把这个少数类的样本合成为N*M个新的样本。要求N为是正整数,如果给定的N小于1那么算法将“认为”少数类的样本数M=NM,并且让N=1。假设考虑该少数类的一个样本i,其特征向量为银行客户借贷违约预测分析 - 图3银行客户借贷违约预测分析 - 图4
    步骤1:从该少数类中的全部M个样本中找到样本银行客户借贷违约预测分析 - 图5的k个相邻的点(这里用的gower距离),记为银行客户借贷违约预测分析 - 图6,银行客户借贷违约预测分析 - 图7
    步骤2:然后我们从这k个近邻点中随机选择一个样本点银行客户借贷违约预测分析 - 图8,从这两个点的连线上随机生成一个0到1之间的数ζ,从而合成一个新样本银行客户借贷违约预测分析 - 图9,新样本得到的公式为:
    银行客户借贷违约预测分析 - 图10
    步骤3:将步骤2重复进行N次,从而可以合成N个新样本:银行客户借贷违约预测分析 - 图11,银行客户借贷违约预测分析 - 图12;SMOTE算法所合成出的一个新样本银行客户借贷违约预测分析 - 图13相当于是表示样本银行客户借贷违约预测分析 - 图14的点和表示样本银行客户借贷违约预测分析 - 图15的点之间所连线段上随机的一个点。
    利用SMOTE抽样算法得到的结果见表13和表14。

    表13.SMOTE抽样的训练集

    v_5 频数 百分比 累计频数 累计百分比
    0 7000 50 7000 50
    1 7000 50 14000 100


    表14.SMOTE抽样的验证集

    v_5 频数 百分比 累计频数 累计百分比
    0 3000 50 3000 50
    1 3000 50 6000 100


    这样利用SMOTE抽样得到训练集7000个样本,验证集3000个样本。在本章采用两种抽样方法对数据集进行了划分,分为了训练集和验证集。接下来就是具体的实证研究了。



















    第三章 logistic模型实证研究
    3.1 模型主要原理
    3.1.1 logistic回归预测模型
    客户违约状态只有两种情况,即违约与未违约,这两种情形分别用“1”和“0”表示。该变量是离散型变量,故可以用多因素的logistic回归模型。通过logistic回归建立客户违约情况预测模型,从而得出每个客户的违约倾向概率。
    Logistic回归先对因变量进行Logit变换,然后采用极大似然法对数据进行拟合,所得到的因变量的估计值表示目标事件发生的概率。
    步骤1:进行逻辑(Logit)变换,可以将因变量转化为一个[0,1]之间的线形函数。即:
    银行客户借贷违约预测分析 - 图16 (3.1)
    步骤2:与自变量连立线性方程,变换后的线性回归模型为:
    银行客户借贷违约预测分析 - 图17 (3.2)
    步骤3:通过极大似然法可以得到回归系数银行客户借贷违约预测分析 - 图18的估计,得到经验回归方程。
    步骤4:通过Logit的逆运算得到时间发生的概率银行客户借贷违约预测分析 - 图19。即:
    银行客户借贷违约预测分析 - 图20 (3.3)
    利用上式可以对客户违约作预测,从而得出每个客户的违约倾向概率。得到每个客户的违约倾向概率后,给定阈值0.5,当违约概率大于等于0.5时,则预测为违约;若违约概率小于0.5时,则预测为非违约。
    3.2 模型变量筛选
    3.2.1 变量的特征选择
    现在训练集loan.practice有255个变量14000条观测。如何从众多变量中提取出更为有用有效的特征变量就尤为重要了,如果预测变量太多会导致模型过于繁琐,但是预测变量太少就会导致信息不够,模型预测结果可能会不够准确。

    I.变量的首次筛选
    这一步是在建模数据集变量大于50个的情况下施行的,在本文中数据集变量一共有627个变量,首次筛选为了先去掉那些对目标变量影响不大的变量,这样将会大大减少后续的工作量。这里采用SAS宏程序让每个变量对响应变量v_5进行逐个的logistic回归,即单变量回归。
    由于logistic回归中只能对数值型变量建模,故在这里先对数值型变量进行首次筛选。得到每个数值型变量的卡方值和P值,以便进行后续的筛选。对数值型变量以P=0.3为阈值进行筛选,如果P值超过0.3,将不再进入下面的建模数据集。筛选完后的结果:还有280个变量。

    II.变量的第二次筛选
    这个时候字符变量也通过字符压缩和SAS语句转换成哑变量了,即都是数值型数据。现在的数据集是loan.practice,有253个变量(有id,没有v_1),14000条观测。通过聚类的方法对这253个变量进一步降维。截至到上节,已经完成了对数值型变量和字符型变量的全部筛选工作了。在变量首次筛选中只是为了排除那些对目标变量影响较小的因素变量X,但是预测变量X之间仍可能存在共线性关系之外,还有可能有一些其他各种各样的非线性关系,但是不可能穷尽这种非线性关系,所以只可能考察它们之间的线性关系为基础来排除一些彼此具有高度线性关系的变量。这里通过SAS的VARCLUS过程来处理预测变量X之间的共线性问题。
    表15.变量筛选varclus聚类结果

    聚类数 由聚类解释的最小比例 变量的最小R方
    1 0.0931 0
    2 0.0945 0
    120 0.8986 0.8623
    121 0.901 0.8623

    (完整的见附录)
    在聚类数取121的时候这个由聚类解释的最小比例达到90%以上。这里生成数据集loan.practice_1,一共有122个变量,14000条观测。

    III.变量的第三次筛选
    依照第一次筛选的每个变量对响应变量v_5进行逐个的logistic回归,即单变量回归。
    前面已经把字符型变量转换成为了数值,这里得到每个数值型变量的卡方值和P值,以便进行后续的筛选,选择p值小于0.05的筛选。这样会导致这个C变小,但变量也会减少一部分,为了减少变量。这样得到loan.practice_2有87个变量,14000条观测。

    IV.变量的第四次筛选
    如果某些变量相互之间具有很强的相关性或关联性,简而言之,这意味着它们包含相同的信息内容。因子分析和主成分分析是尝试找出决定方差的最少自变量的统计技术。假设这些要素是原始变量的组合。如果这些变量之间具有很强的相关性,FA和PCA可以显著减少变量的数量。
    I.在欠抽样下对除了响应变量v_5的剩下38个变量进行因子分析。从这38个变量中选取了27变量分为5类见下表21,然后对这5类分别做因子分析,得到新的5个变量变量FA_P1交易金额、FA_P2交易笔数、FA_P3余额、FA_P4消费金额、FA_P5消费次数。


    表16.因子分析的5类变量

    交易金额 v_127 v_163 v_276 v_286 v_290 v_320 v_322
    v_428 v_487 v_526 v_74 v_76 v_82
    交易笔数 v_273 v_287 v_417 v_431 v_482
    余额 v_110 v_113 v_114 v_28 v_54
    消费金额 v_184 v_195
    消费次数 v_185 v_189


    这样27个变量再经过上面因子分析后最终得到5个变量再加上剩余11个变量。最后是16个变量。如下:

    表17.欠抽样下最终的16个变量

    持有定期存款标志 活期存款平均开户时长 当月存款账户总数 客户持有全部产品数量 客户持有帐户数量 累计销户数目 是否薪资理财 累计开户数目
    v_172_c v_100 v_101 v_20 v_19 v_50 v_31_c v_49
    交易
    金额
    交易
    笔数

    消费
    金额
    消费
    次数
    证件
    类型
    负债
    情况
    资产
    情况
    FA_P1 FA_P2 FA_P3 FA_P4 FA_P5 lc3 v_72 v_70

    这样已经把变量筛选完毕。最终建模的变量是上表17,一共有16个变量。

    II.在SMOTE抽样下对除了响应变量v_5的剩下86个变量进行因子分析。从这86个变量中选取了76变量分为6类做因子分析,见下表18。得到变量FA_P1交易金额、FA_P2交易笔数、FA_P3证件类型、FA_P4余额、FA_P5消费金额、FA_P6消费次数。
    表18.因子分析的6类变量

    交易金额 v_128 v_129 v_137 v_139 v_167 v_270 v_276 v_286 v_289
    v_296 v_308 v_316 v_318 v_320 v_322 v_324 v_325 v_328
    v_338 v_344 v_350 v_352 v_358 v_428 v_434 v_436 v_444
    v_450 v_463 v_478 v_487 v_494 v_501 v_511 v_525 v_526
    v_591 v_74 v_76 v_82 v_90 v_91
    交易笔数 v_12 v_16 v_269 v_273 v_301 v_337 v_351 v_397 v_603
    v_417 v_431 v_447 v_451 v_466 v_586 v_594 v_595 v_602
    证件类型 lc1 lc2 lc3
    余额 v_110 v_115 v_116 v_170 v_51 v_55 v_64 v_9
    消费金额 v_184 v_188 v_195
    消费次数 v_185 v_189


    这样76个变量再经过上面因子分析后最终得到6个变量再加上剩余10个变量。最后是16个变量。如下:


    表19.16个变量

    持有外币账户数量 持有定期存款标志 活期存款平均开户时长 当月存款账户数目 客户持有全部产品数量 客户持有账户数量 累计销户数目 是否薪资理财
    v_107 v_172_c v_100 v_101 v_20 v_19 v_50 v_31_c
    交易
    金额
    交易
    笔数
    证件
    类型

    消费
    金额
    消费
    次数
    开户
    机构
    负债
    情况
    FA_P1 FA_P2 FA_P3 FA_P4 FA_P5 FA_P6 v_2 v_72


    这样已经把变量筛选完毕。最终建模的变量见表25,一共有16个变量。得到数据集loan.practice_2_fa目前预测变量有16个。
    3.3 模型结果及检验
    3.3.1 模型的训练和验证
    分别对欠抽样训练集和SMOTE抽样训练集进行logistic逐步回归,依据因子分析得到的16个预测变量,回归的响应变量是v_5,回归得到的系数表结果见表20。
    表20.变量参数估计

    欠抽样最大似然估计分析 SMOTE抽样最大似然估计分析
    参数 估计 Pr>卡方 参数 估计 Pr>卡方
    Intercept 23.2077 0.0336 Intercept 46.9267 <.0001
    FA_P1 -0.2531 0.0412 FA_P2 0.0617 0.0244
    FA_P3 0.4244 <.0001 FA_P3 -0.1069 <.0001
    FA_P5 -0.5411 0.0002 FA_P4 -0.1317 <.0001
    v_101 1.7994 0.0458 FA_P6 -0.9227 <.0001
    lc3 -3.1798 0.003 v_72 367.2 <.0001
    v_72 238.3 0.0015 v_172_c 0.9315 <.0001
    v_70 -74.2909 0.0001 v_100 0.4916 <.0001
    v_172_c 0.7503 0.0327 v_20 -0.4209 <.0001
    v_100 0.4965 <.0001 v_19 -3.3496 <.0001
    v_19 -3.0001 0.0012 v_50 -1.5845 <.0001
    v_31_c 2.2661 0.0024 v_31_c 2.4025 <.0001
    v_101 2.8374 <.0001
    v_107 -1.3404 <.0001


    在欠抽样下最终选入模型的变量为FA_P1、FA_P3、FA_P5、v_101、lc3、v_72、v_70、v_172_c、v_100、v_19、v_31_c,客户违约概率方程为:
    银行客户借贷违约预测分析 - 图21 (3.4)
    银行客户借贷违约预测分析 - 图22
    由上述方程的系数可以看出,交易金额、消费次数、客户持有账户数量越多则客户越有可能违约。余额、当月存款账户总数越多和有薪资理财则客户不太可能违约。

    在SMOTE抽样下最终选入模型的变量为FA_P2、FA_P3、FA_P4、FA_P6、v_72、v_172_c、v_100、v_20、v_19、v_50、v_31_c、v_101、v_107。
    银行客户借贷违约预测分析 - 图23
    由上述方程的系数可以看出,余额、消费次数越多,持有外币数量则客户越有可能违约。交易笔数越少、无负债情况、客户持有账户数量越少则客户不太可能违约。由SAS软件输出的两个模型的ROC曲线图见下图1和图2。
    银行客户借贷违约预测分析 - 图24银行客户借贷违约预测分析 - 图25
    图1.欠抽样的ROC曲线 图2.SMOTE抽样的ROC曲线

    ROC曲线,一般被人称为受试者的特征曲线。该曲线是以还未发生的概率为横轴,已经发生的概率为纵轴所构成的坐标图。ROC曲线下的AUC值一般也可以称为C统计量。C统计量是体现模型的一种拟合优度,它可以给出观测值和预测值之间的差别程度,然后给出一个总体性的评价指标。C统计量就是ROC曲线下的AUC面积。模型得到C统计量为0.7692,说明由欠抽样建立的训练集logistic回归模型是可靠的,预测一致性检验是0.7692。把模型运用到验证集中得到欠抽样的准确率为436/600=72.66%。SMOTE抽样下得到C统计量为0.7921,由SMOTE过抽样建立训练集的logistic回归模型是可靠的,预测一致性检验是0.7921。把模型运用到验证集中得到SMOTE抽样的准确率为5123/6000=85.38%。


    3.4 logsictic模型小结
    3.4.1 模型运用的基础
    由于国内外运用logistic回归模型预测的方法已经趋于完善了,得到的结果一般不会差。鉴于此,本文利用因子分析筛选变量和logisctic回归可以有效地对客户违约进行预测,从而有效地提供一种方案给银行和金融机构对客户进行管理和及时预警。

    3.4.2 模型的有效性
    通过不同抽样方法的比较,发现在SMOTE欠抽样下的logistic模型得到的预测准确率更高,而且对于不同样本的数据,可以针对样本类别选取合理的抽样方法,然后再进行变量的筛选特征提取,其精度有保证。而且利用逐步回归得到的变量均通过了显著性检验。

    3.4.3 模型运行的可行性
    利用模型银行不但可以针对重点地区、重点人群来建立相应的违约风险预测预警模型,而且可以针对不同的收集数据经过变量筛选特征提取得到一个不错的回归预测模型,以得到有效的风险预测预警。同时还可以采用多种抽样方法和不同的特征提取进行研究,不断丰富违约预测模型。

    3.4.4 模型尚待完善的方面
    目前变量的筛选特征提取仍然还有一些问题,如何在降维的时候尽可能的保证变量的信息不被丢失。这将影响到模型的有效性。同时收集到的数据的真实性也有待信度检验。


















    第四章 决策树模型实证研究
    4.1 模型主要理论
    决策树是一种类似树型结构的算法。决策树依据内部的每一个节点表示对一种属性的检验。每个分支等同于检验输出,每个叶节点代表一个类别。通过构造决策树以获得响应变量的预期值大于或等于零的概率。由于此决策分支像树一样绘制,因此称为决策树。决策树中的算法主要包括这几种ID3,C4.5和C5.0生成树。
    决策树的训练和测试训练阶段是给定训练集构造树,并从根节点中选择最有价值的特征来启动分割节点。测试阶段是根据构建的树模型从上到下遍历树模型。构建决策树后,分类或预测任务非常简单。要构造一个树,主要是特征分割,选择一个度量来计算分支选择后的不同特征的分类,找出最好的是我们的根节点,以便模拟所有节点的分类标准。这个度量是熵。熵是随机变量不确定性的度量(即整体内部元素的混淆程度,元素类型越多,混淆程度越高)。计算熵的公式如下:
    银行客户借贷违约预测分析 - 图26 (4.1)
    公式中的银行客户借贷违约预测分析 - 图27表示第i种情况的概率。特征选择上主要是利用信息增益,计算每个特征的信息增益,选择信息增益最大的特征作为最优特征。最后根据最优特征按照决策树的类型去生成树。
    4.2 模型的训练和验证
    这里利用SAS软件的hpsplit过程步来实现决策树。按照比例7:3划分训练集和验证集,得到的模型变量重要性和参数见表21和表22。

    表21.决策树模型变量的重要性

    欠抽样下变量重要性
    变量 变量 训练 验证
    标签 相对 重要性 相对 重要性
    v_100 活期存款平均开户时长 1 7.3029 1 5.488
    v_172_c 持有定期存款标志 0.5883 4.2964 0.4321 2.3715
    v_72 负债情况 0.4974 3.6322 0.3483 1.9113
    FA_P5 消费次数 0.3552 2.5939 0.3319 1.8217
    SMOTE抽样下变量重要性
    变量 变量 训练 验证
    标签 相对 重要性 相对 重要性
    v_100 活期存款平均开户时长 1 29.6621 1 19.3495
    v_50 累计销户数目 0.7687 22.8007 0.7672 14.8443
    v_72 负债情况 0.5833 17.3028 0.5747 11.12
    v_20 客户持有全部产品数量 0.5385 15.9737 0.5304 10.2623
    v_172_c 持有定期存款标志 0.5319 15.7758 0.4914 9.5084
    FA_P6 消费次数 0.4234 12.5599 0.4389 8.4916
    FA_P4 余额 0.0674 1.9984 0.0509 0.9858


    由上表可以发现不论是欠抽样还是SMOTE抽样,活期存款平均开户时长、持有定期存款标志、负债情况、消费次数都是判断这个客户违约不违约的关键因素。而且活期存款平均开户时长即v_100的重要程度最大,故这一个变量要着重考虑。

    表22.决策树模型的参数

    欠抽样的拟合统计量
    叶数 误分类 灵敏度 AUC
    训练 5 0.2938 0.6301 0.852 0.7191
    验证 5 0.2719 0.672 0.8351 0.7269
    SMOTE抽样的拟合统计量
    叶数 误分类 灵敏度 AUC
    训练 18 0.2323 0.7294 0.715 0.8148
    验证 18 0.2313 0.7264 0.7169 0.8129


    由上表得到的统计量,可以看出SMOTE抽样的误分类率要比欠抽样的低,此外基于SMOTE抽样的决策树模型灵敏度更高。SMOTE抽样下的熵更低,熵越低说明模型变量越不混乱。在预测一致性上看也可以看出SMOTE抽样要优于欠抽样。在欠抽样下训练集AUC=0.7191,验证集的AUC=0.7269。在SMOTE抽样下训练集AUC=0.8148,验证集的AUC=0.8129。具体的ROC曲线见图3和图4。

    银行客户借贷违约预测分析 - 图28银行客户借贷违约预测分析 - 图29
    图3.欠抽样的ROC曲线 图4.SMOTE抽样的ROC曲线

    由上述两个对比图可以看出SMOTE抽样的预测模型更好。预测的一致性更高。利用SAS的hpsplit过程会计算把利用验证集计算预测的准确率,其中得到欠抽样准确率为386/596=64.77%,SMOTE下准确率为4573/5928=77.14%。

    4.3 决策树模型小结
    4.3.1 模型运用的基础
    SAS的hpsplit过程步已经很完善了,此外SAS软件的方法和模型等都是经过SAS公司严密核查和实践过的,故由此来做的决策树模型是有效的而且操作起来容易实现。鉴于此,本文利用两种抽样方法分别建立不同的决策树模型对客户违约进行预测。

    4.3.2 模型的有效性
    通过不同抽样方法的比较,发现在SMOTE欠抽样下的决策树模型得到的预测准确率更高,而且对于不同样本的数据,可以针对样本类别选取合理的抽样方法,然后再进行变量的筛选特征提取,其精度有保证。而且决策树得到的变量均通过了显著性检验。

    4.3.3 模型运行的可行性
    银行等金融机构针对多维变量,可以采取决策树模型提取出重要变量,对关键变量分析可以很有效地提高预测精度,以得到有效的风险预测预警。同时还可以采用不同抽样方法进行研究,不断丰富违约的预测模型。

    4.3.4 模型尚待完善的方面
    目前决策树模型的实践程度已经在逐步下滑了,因为现有的随机森林已经很好地解决了决策树的过拟合和不稳定性。如果还想继续用决策树,那么要求数据的相关性还有整体模型的精确度都要很好才能达到预期。















    第五章 结论与展望
    本文基于大量真实数据开展了两种抽样方法和两种预测模型的研究,由此得到了一些研究成果,本章对此进行了小结,并对创新点进行简要的说明,随后提出现在的模型尚待解决的问题以及开展后续研究的建议和未来展望。
    5.1 主要结论和创新点
    5.1.1 主要结论
    为有效判定预测客户违约的发生,为了商业银行银行管理客户借贷违约风险提供坚实的基础。本文研究了在抽样技术和变量选择上的实证研究。
    对不同抽样以及不同模型的技术方法和内在原理进行了深入全面的探讨,并对基于同一数据的不同模型进行了比较分析。研究认为对于不平衡数据,应该采取SMOTE算法进行抽样,然后构建决策树模型。
    在对高维变量处理时,应采取多次变量筛选聚合达到降维的目的,本文是先采取logistic回归对每个变量进行批量的回归分析,最后保留p值小的变量,接着又采取了聚类降维,最后面对剩下的变量人为的按照词义分为几个大类,然后对每个大类的变量进行因子分析分别合成一个变量。最终进入模型的变量只有16个,这为定性分析到定量分析打下了基础,且由此模型的可解释度更高。在决策树模型研究中,普遍得到客户违约与否和这四个变量密不可分,活期存款平均开户时长、持有定期存款标志、负债情况、消费次数。研究认为对商业银行等金融机构可以选取这四个指标作为重点预测预警的指标,设定相对的阈值,一旦达到阈值就进行预警,这样将会大大减小人为来预警的时间,且更为有效。此外本文对logistic回归和决策树预测的一致性指标做了对比见表23。

    表23.AUC对比

    训练集的AUC对比
    SMOTE过抽样 欠抽样
    Logistic 0.792 0.769
    决策树 0.815 0.719
    验证集的AUC对比
    SMOTE过抽样 欠抽样
    Logistic 0.809 0.774
    决策树 0.813 0.727


    由上表得到SMOTE抽样方法还是优于欠抽样,决策树的AUC高于logistic,但是准确率上还是logistic回归的准确率要高于决策树一些。

    5.1.2 创新点
    本文的主要创新点有:
    1.本文实现了对大量数据和高维变量的筛选,在变量筛选上进行了四次筛选,从627个变量降到16个变量。且筛选的变量均用SAS的宏编写,后续的人再进行研究也方便直接调用。
    2.通过两种抽样方法解决了不平衡数据的处理,且得出SMOTE的抽样方法要优于欠抽样。
    3.通过logistic和决策树模型的对比,发现在预测的一致性和变量重要性解释上决策树更优。
    5.2 展望
    基于已有的实证模型,本文认为还可以开展以下一些研究:
    1.模型技术尚待尚待完善。利用SAS软件可以编写一套宏程序,以后对数据分析可以直接运行宏一步完成数据的导入清理并进行建模输出结果。
    2.模型对于银行客户违约预测有辅助参考作用,仍需深入研究。
    3.现有的模型运用所需要基本条件,在数据处理方面还要筛选特征的时候仍需要开展大量研究。
    4.在特征提取上还可以利用深度学习或者GBDT、LightGBM等方法。
    模型并未放到真实的案例去检验。且如今新的金融风暴、新的风险事件层出不穷,为了检验预测模型的有效性,得提供足够的时间和案例去研究。由此,随着时间不断去接受考验和检验,然后并去不断完善和改进模型。
























    参考文献
    [1]夏坤庄,徐唯,潘红莲,林建伟《深入解析SAS》,机械工业出版社,2015年1月.
    [2]吴锦栩. 国内航空公司大客户营销策略研究,2014年.
    [3]涂艳,王翔宇.基于机器学习的P2P网络借贷违约风险预警研究——来自“拍拍贷”的借 贷交易证据[J].统计与信息论坛,2018,33(06):69-76.
    [4]范宝玉. 越南航空公司客户满意度研究,2014年.
    [5]刘攀. 基于数据挖掘的航空公司客户价值建模,2010年.
    [6]王红,李晓晖.基于数据挖掘的航空公司客户信息分析[J].计算机工程,2005, (S1):189-191.[2017-09-28].
    [7]李彭城,王栋. 99’SAS软件应用高级研讨会交流论文选登 SAS环境下经济运行监测预警 系统模型建立[J]. 统计教育,2000,(06):44-46. [2017-09-28].
    [8]顾乾屏. 商业银行法人客户信用风险模型研究[D].清华大学,2009.
    [9]单国俊. 银行借贷行为、企业融资决策与货币政策传导[D].复旦大学,2013.
    [10]曲艳婷. P2P网络借贷违约的随机森林预测模型[D].重庆大学,2018.
    [11]王静月. 基于用户行为数据的P2P网贷违约预测[D].上海师范大学,2017.
    [12]王嘉琪. 基于数据挖掘技术的P2P借贷违约风险识别模型研究[D].浙江工商大 学,2018.
    [13]刘臻煊. 基于有序logistic模型的互联网金融网贷客户违约预测研究[D].湖南大 学,2017.
    [14]赖亮. 基于Boosting-SVM算法的P2P网贷平台违约风险识别方法[D].东北财经大 学,2017.
    [15]王粟旸. 商业银行小微企业违约风险管控及违约概率估计模型研究[D].南京大 学,2014.
    [16]刘风芝. P2P网络借贷借款人信用风险研究[D].上海工程技术大学,2016.
    [17]付世豪.基于Logit回归的公司违约概率预测[J].金融经济,2019(02):108-109.
    [18]Fabio Sigrist,Christoph Hirnschall. Grabit: Gradient tree-boosted Tobit models for default prediction[J]. Journal of Banking and Finance,2019,102.
    [19]Science - Operations Science; Recent Studies from Hefei University of Technology Add New Data to Operations Science (Loan default prediction by combining soft information extracted from descriptive text in online peer-to-peer lending)[J]. Science Letter,2018.
    [20]Ha Nee Jang,Hee Jung Park,Hyun Seop Cho,Eunjin Bae,Tae Won Lee,Se-Ho Chang,Dong Jun Park. The logistic organ dysfunction system score predicts the prognosis of patients with alcoholic ketoacidosis[J]. Renal Failure,2018,40(1).
    [21]Mani Suleiman,Haydar Demirhan,Leanne Boyd,Federico Girosi,Vural Aksakalli. Bayesian logistic regression approaches to predict incorrect DRG assignment[J]. Health Care Management Science,2019,22(2).







    附录
    附录1:变量名解释

    变量名称 标签 更改后的变量名
    CUST_ID 客户号 v_1
    OPEN_ORG_NUM 开户机构 v_2
    IDF_TYP_CD 证件类型 v_3
    GENDER 性别 v_4
    bad_good 违约标志(bad=1) v_5
    LAST_OPEN_TENURE_DAYS 信用卡最近开户时长 v_6
    G_OS_PRCP_SUM 贷款账户月余额 v_7
    OS_PRCP_SUM_THREE 三个月内贷款账户月均余额 v_8
    OS_PRCP_SUM_SIX 六个月内贷款账户月均余额 v_9
    guozhai_flag 国债 v_10
    L3_DR_AMT 最近三个月转入金额 v_11
    L3_DR_CNT 最近三个月转入笔数 v_12
    DR_AMT 本月转入金额 v_13
    DR_CNT 本月转入笔数 v_14
    L3_CR_AMT 最近三个月转出金额 v_15
    L3_CR_CNT 最近三个月转出笔数 v_16
    CR_AMT 本月转出金额 v_17
    CR_CNT 本月转出笔数 v_18
    CUST_ACCOUNT_CNT 客户持有帐户数量 v_19
    CUST_PRODUCT_CNT 客户持有的全部产品数量(24种产品) v_20
    CUST_SAVING_AMT 存款金额 v_21
    CUST_FINA_AMT 理财金额 v_22
    CUST_PRIFINA_AMT 私人银行理财金额 v_23
    CUST_FOND_AMT 基金金额 v_24
    CUST_NADEBT_AMT 国债金额 v_25
    CUST_YBT_AMT 银保通金额 v_26
    CUST_METAL_AMT 贵金属金额 v_27
    CUST_AUM 客户AUM(ECIF8种金融资产余额) v_28
    CUST_EUP_ACCT_FLAG 是否有欧元账户 v_29
    CUST_AU_ACCT_FLAG 是否有澳元账户 v_30
    CUST_SALARY_FINANCIAL_FLAG 是否薪资理财 v_31
    CUST_SOCIAL_SECURITYIC_FLAG 是否社保金融IC卡 v_32
    CUST_MTFLOW_FLAG 是否物流IC卡 v_33
    CUST_DOLLER_FLAG 是否美元卡 v_34
    CUST_INTERNATIONAL_GOLD_FLAG 是否国际金卡 v_35
    CUST_INTERNATIONAL_COMMON_FLAG 是否国际普卡 v_36
    CUST_INTERNATIONAL_SIL_FLAG 是否国际银卡 v_37
    CUST_INTERNATIONAL_DIAMOND_FLAG 是否国际钻石卡 v_38
    CUST_GOLD_COMMON_FLAG 是否金普卡 v_39
    CUST_STAD_PLATINUM_FLAG 是否标准白金卡 v_40
    CUST_LUXURY_PLATINUM_FLAG 是否豪华白金卡 v_41
    CUST_PLATINUM_FINANCIAL_FLAG 是否白金理财卡 v_42
    CUST_DIAMOND_FLAG 是否钻石卡 v_43
    CUST_INFINIT_FLAG 是否无限卡 v_44
    CUST_BUSINESS_FLAG 是否商务卡 v_45
    CUST_ASSET_AMT 资产总额 v_46
    CUST_DEBT_AMT 负债总额 v_47
    CUST_TENURE_MONTHS 客户保有期限 v_48
    CUST_ACCOUNT_OPEN_CNT 累计开户数目 v_49
    CUST_ACCOUNT_LOST_CNT 累计销户数目 v_50
    L3_CUST_AVG_AUM 最近3个月客户AUM平均值 v_51
    L6_CUST_AVG_AUM 最近6个月客户AUM平均值 v_52
    L3_CUST_SAVING_AVGAMT 3个月存款月日均金额 v_53
    L6_CUST_SAVING_AVGAMT 6个月存款月日均金额 v_54
    L3_CUST_FINA_AVGAMT 3个月理财月日均金额 v_55
    L6_CUST_FINA_AVGAMT 6个月理财月日均金额 v_56
    L3_CUST_PRIFINA_AVGAMT 3个月私人银行理财月日均金额 v_57
    L6_CUST_PRIFINA_AVGAMT 6个月私人银行理财月日均金额 v_58
    L3_CUST_FOND_AVGAMT 3个月基金月日均金额 v_59
    L6_CUST_FOND_AVGAMT 6个月基金月日均金额 v_60
    L3_CUST_NADEBT_AVGAMT 3个月国债月日均金额 v_61
    L6_CUST_NADEBT_AVGAMT 6个月国债月日均金额 v_62
    L3_CUST_YBT_AVGAMT 3个月银保通月日均金额 v_63
    L6_CUST_YBT_AVGAMT 6个月银保通月日均金额 v_64
    L3_CUST_METAL_AVGAMT 3个月贵金属月日均金额 v_65
    L6_CUST_METAL_AVGAMT 6个月贵金属月日均金额 v_66
    L3_CUST_PRIDEPT_AVGAMT 3个月私人银行撮合委托贷款 v_67
    L6_CUST_PRIDEPT_AVGAMT 6个月私人银行撮合委托贷款 v_68
    L3_CUST_ASSET_AVG_AMT 最近3个月客户月平均资产总计 v_69
    L6_CUST_ASSET_AVG_AMT 最近6个月客户月平均资产总计 v_70
    L3_CUST_DEBT_AVG_AMT 最近3个月客户月平均负债总计 v_71
    L6_CUST_DEBT_AVG_AMT 最近6个月客户月平均负债总计 v_72
    CUST_SAME_IN_AMT 客户当月跨行同名转入金额 v_73
    CUST_DIFF_IN_AMT 客户当月跨行非同名转入金额 v_74
    CUST_SAME_OUT_AMT 客户当月跨行同名转出金额 v_75
    CUST_DIFF_OUT_AMT 客户当月跨行非同名转出金额 v_76
    CUST_SAME_IN_CNT 客户当月跨行同名转入次数 v_77
    CUST_DIFF_IN_CNT 客户当月跨行非同名转入次数 v_78
    CUST_SAME_OUT_CNT 客户当月跨行同名转出次数 v_79
    CUST_DIFF_OUT_CNT 客户当月跨行非同名转出次数 v_80
    L3_CUST_SAME_IN_AMT 最近三个月客户跨行同名转入月平均金额 v_81
    L3_CUST_DIFF_IN_AMT 最近三个月客户跨行非同名转入月平均金额 v_82
    L3_CUST_SAME_OUT_AMT 最近三个月客户跨行同名转出月平均金额 v_83
    L3_CUST_DIFF_OUT_AMT 最近三个月客户跨行非同名转出月平均金额 v_84
    L3_CUST_SAME_IN_CNT 最近三个月客户跨行同名转入月平均次数 v_85
    L3_CUST_DIFF_IN_CNT 最近三个月客户跨行非同名转入月平均次数 v_86
    L3_CUST_SAME_OUT_CNT 最近三个月客户跨行同名转出月平均次数 v_87
    L3_CUST_DIFF_OUT_CNT 最近三个月客户跨行非同名转出月平均次数 v_88
    L6_CUST_SAME_IN_AMT 最近六个月客户跨行同名转入月平均金额 v_89
    L6_CUST_DIFF_IN_AMT 最近六个月客户跨行非同名转入月平均金额 v_90
    L6_CUST_SAME_OUT_AMT 最近六个月客户跨行同名转出月平均金额 v_91
    L6_CUST_DIFF_OUT_AMT 最近六个月客户跨行非同名转出月平均金额 v_92
    L6_CUST_SAME_IN_CNT 最近六个月客户跨行同名转入月平均次数 v_93
    L6_CUST_DIFF_IN_CNT 最近六个月客户跨行非同名转入月平均次数 v_94
    L6_CUST_SAME_OUT_CNT 最近六个月客户跨行同名转出月平均次数 v_95
    L6_CUST_DIFF_OUT_CNT 最近六个月客户跨行非同名转出月平均次数 v_96
    DEP_SA_FLAG 持有活期产品标志 v_97
    DEP_SA_OPEN_TENURE_DAYS 活期存款最早开户日期距今月份 v_98
    DEP_SA_LAST_TENURE_DAYS 活期存款最近开户距今月份 v_99
    DEP_SA_AVG_TENURE_DAYS 活期存款平均开户时长 v_100
    DEP_SA_SUMACCOUNT_CNT 当月存款账户总数 v_101
    L3_DEP_SA_AVG_ACCOUNT_CNT 三个月月均存款账户总数 v_102
    L6_DEP_SA_AVG_ACCOUNT_CNT 六个月月均存款账户总数 v_103
    DEP_SA_NEW_ACCOUNT_CNT 当月新增存款账户数 v_104
    L3_DEP_SA_NEW_ACCOUNT_CNT 三个月月均新增存款账户数 v_105
    L6_DEP_SA_NEW_ACCOUNT_CNT 六个月月均新增存款账户数 v_106
    DEP_SA_FGCR_ACCOUNT_CNT 持有外币账户数量 v_107
    DEP_SA_ACCOUNT_CNT 持有本币账户数量 v_108
    DEP_SA_FGCR_BAL 本期持有外币余额 v_109
    L3_DEP_SA_FGCR_BAL 三个月月平均持有外币余额 v_110
    L6_DEP_SA_FGCR_BAL 六个月月平均持有外币余额 v_111
    DEP_SA_BAL 本期持有本币余额 v_112
    L3_DEP_SA_BAL 三个月月平均持有本币余额 v_113
    L6_DEP_SA_BAL 六个月月平均持有本币余额 v_114
    DEP_SA_NEW_BAL 本期本币新增余额 v_115
    L3_DEP_SA_NEW_AVG_BAL 三个月月平均本币新增余额 v_116
    L6_DEP_SA_NEW_AVG_BAL 六个月月平均本币新增余额 v_117
    DEP_SA_FGCR_NEW_BAL 本期外币新增余额 v_118
    L3_DEP_SA_FGCR_NEW_AVG_BAL 三个月月平均外币新增余额 v_119
    L6_DEP_SA_FGCR_NEW_AVG_BAL 六个月月平均外币新增余额 v_120
    DEP_SA_TRSP_DEP_AMT 当月本币转账存款金额 v_121
    DEP_SA_TRSP_WITD_AMT 当月本币转账取款金额 v_122
    DEP_SA_FGCR_TRSP_DEP_AMT 当月外币转账存款金额 v_123
    DEP_SA_FGCR_TRSP_WITD_AMT 当月外币转账取款金额 v_124
    DEP_SA_FIXTCUR_AMT 当月本币定期转活期金额 v_125
    DEP_SA_FGCR_FIXTCUR_AMT 当月外币定期转活期金额 v_126
    DEP_SA_DAY_MAX_IN_AMT 单日本币单笔最大转入金额 v_127
    DEP_SA_MOTH_MAX_IN_AMT 当月本币单笔最大转入金额 v_128
    DEP_SA_DAY_MAX_OUT_AMT 单日本币单笔最大转出金额 v_129
    DEP_SA_MOTH_MAX_OUT_AMT 当月本币单笔最大转出金额 v_130
    DEP_SA_FGCR_DAY_MAX_IN_AMT 单日外币单笔最大转入金额 v_131
    DEP_SA_FGCR_MOTH_MAX_IN_AMT 当月外币单笔最大转入金额 v_132
    DEP_SA_FGCR_DAY_MAX_OUT_AMT 单日外币单笔最大转出金额 v_133
    DEP_SA_FGCR_MOTH_MAX_OUT_AMT 当月外币单笔最大转出金额 v_134
    L3DEP_SA_DAY_MAX_IN_AMT 三个月内单日本币单笔最大转入金额 v_135
    L3DEP_SA_MOTH_MAX_IN_AMT 三个月内本币单笔最大转入金额 v_136
    L3DEP_SA_DAY_MAX_OUT_AMT 三个月内单日本币单笔最大转出金额 v_137
    L3DEP_SA_MOTH_MAX_OUT_AMT 三个月内本币单笔最大转出金额 v_138
    L6DEP_SA_DAY_MAX_IN_AMT 六个月内单日本币单笔最大转入金额 v_139
    L6DEP_SA_MOTH_MAX_IN_AMT 六个月内本币单笔最大转入金额 v_140
    L6DEP_SA_DAY_MAX_OUT_AMT 六个月内单日本币单笔最大转出金额 v_141
    L6DEP_SA_MOTH_MAX_OUT_AMT 六个月内本币单笔最大转出金额 v_142
    L3DEP_SA_FGCR_DAY_MAX_IN_AMT 三个月内单日外币单笔最大转入金额 v_143
    L3DEP_SA_FGCR_MOTH_MAX_IN_AMT 三个月内外币单笔最大转入金额 v_144
    L3DEP_SA_FGCR_DAY_MAX_OUT_AMT 三个月内单日外币单笔最大转出金额 v_145
    L3DEP_SA_FGCR_MOTH_MAX_OUT_AMT 三个月内外币单笔最大转出金额 v_146
    L6DEP_SA_FGCR_DAY_MAX_IN_AMT 六个月内单日外币单笔最大转入金额 v_147
    L6DEP_SA_FGCR_MOTH_MAX_IN_AMT 六个月内外币单笔最大转入金额 v_148
    L6DEP_SA_FGCR_DAY_MAX_OUT_AMT 六个月内单日外币单笔最大转出金额 v_149
    L6DEP_SA_FGCR_MOTH_MAX_OUT_AMT 六个月内外币单笔最大转出金额 v_150
    DEP_SA_DEPCD_COSM_AMT 本期借记卡消费金额 v_151
    DEP_SA_DEPCD_COSM_CNT 本期借记卡消费次数 v_152
    L3DEP_SA_DEPCD_COSM_AVG_AMT 最近三个月月均借记卡消费金额 v_153
    L3DEP_SA_DEPCD_COSM_AVG_CNT 最近三个月月均借记卡消费次数 v_154
    L6DEP_SA_DEPCD_COSM_AVG_AMT 最近六个月月均借记卡消费金额 v_155
    L6DEP_SA_DEPCD_COSM_AVG_CNT 最近六个月月均借记卡消费次数 v_156
    DEP_SA_DEBIT_AMT 本期账户借方交易金额 v_157
    DEP_SA_DEBIT_CNT 本期账户借方交易次数 v_158
    DEP_SA_CREDIT_AMT 本期账户贷方交易金额 v_159
    DEP_SA_CREDIT_CNT 本期账户贷方交易次数 v_160
    L3DEP_SA_DEBIT_AMT 最近三个月内账户借方月均交易金额 v_161
    L3DEP_SA_DEBIT_CNT 最近三个月内账户借方月均交易次数 v_162
    L3DEP_SA_CREDIT_AMT 最近三个月内账户贷方月均交易金额 v_163
    L3DEP_SA_CREDIT_CNT 最近三个月内账户贷方月均交易次数 v_164
    L6DEP_SA_DEBIT_AMT 最近六个月内账户借方月均交易金额 v_165
    L6DEP_SA_DEBIT_CNT 最近六个月内账户借方月均交易次数 v_166
    L6DEP_SA_CREDIT_AMT 最近六个月内账户贷方月均交易金额 v_167
    L6DEP_SA_CREDIT_CNT 最近六个月内账户贷方月均交易次数 v_168
    DEP_SA_DAYAVG_BAL 本月活期存款月日均余额 v_169
    L3_DEP_SA_DAYAVG_BAL 最近三个月活期存款月日均余额 v_170
    L6_DEP_SA_DAYAVG_BAL 最近六个月活期存款月日均余额 v_171
    DEP_TD_FLAG 持有定期存款标志 v_172
    LOAN_FLAG 个贷标识 v_173
    FUND_FLAG 持有基金标志 v_174
    C_FUND_FLAG 持有货币型基金标志 v_175
    D_FUND_FLAG 持有偏债型基金标志 v_176
    S_FUND_FLAG 持有偏股型基金标志 v_177
    BOND_FLAG 持有国债标志 v_178
    CER_BOND_FLAG 持有凭证式国债标志 v_179
    BK_BOND_FLAG 持有记账式国债标志 v_180
    CRED_FLAG 持有信用卡产品标志 v_181
    RELATED_REPAY_FLAG 是否关联还款 v_182
    TOT_REPAY_FLAG 是否全额还款 v_183
    L3_DEP_CARD_CUST_AMT 最近三个月储蓄卡月均消费金额 v_184
    L3_DEP_CARD_CUST_CNT 最近三个月储蓄卡月均消费次数 v_185
    L3_DEP_CARD_CASH_AMT 最近三个月储蓄卡月均取现金额 v_186
    L3_DEP_CARD_CASH_CNT 最近三个月储蓄卡月均取现次数 v_187
    L6_DEP_CARD_CUST_AMT 最近六个月储蓄卡月均消费金额 v_188
    L6_DEP_CARD_CUST_CNT 最近六个月储蓄卡月均消费次数 v_189
    L6_DEP_CARD_CASH_AMT 最近六个月储蓄卡月均取现金额 v_190
    L6_DEP_CARD_CASH_CNT 最近六个月储蓄卡月均取现次数 v_191
    DEP_CARD_CASH_CNT 本月储蓄卡取现次数 v_192
    DEP_CARD_CUST_CNT 本月储蓄卡消费次数 v_193
    DEP_CARD_CASH_AMT 本月储蓄卡取现金额 v_194
    DEP_CARD_CUST_AMT 本月储蓄卡消费金额 v_195
    CHANNEL_CTR_FUND_AMT 本期柜台购买基金金额 v_196
    CHANNEL_CTR_FUND_CNT 本期柜台购买基金笔数 v_197
    CHANNEL_CTR_FINANCIAL_AMT 本期柜台购买理财金额 v_198
    CHANNEL_CTR_FINANCIAL_CNT 本期柜台购买理财笔数 v_199
    CHANNEL_CTR_INSURE_AMT 本期柜台购买保险金额 v_200
    CHANNEL_CTR_INSURE_CNT 本期柜台购买保险笔数 v_201
    CHANNEL_CTR_GLOAN_AMT 本期柜台购买国债金额 v_202
    CHANNEL_CTR_GLOAN_CNT 本期柜台购买国债笔数 v_203
    L3_CHANNEL_CTR_FUND_MONTHAVG_AMT 三个月内柜台购买基金月均金额 v_204
    L3_CHANNEL_CTR_FUND_MONTHAVG_CNT 三个月内柜台购买基金月均笔数 v_205
    L3_CHANNEL_CTR_FINANCIAL_MONTHAV 三个月内柜台购买理财月均金额 v_206
    L3_CHANNEL_CTR_FINANCIAL_MONTHA0 三个月内柜台购买理财月均笔数 v_207
    L3_CHANNEL_CTR_INSURE_MONTHAVG_A 三个月内柜台购买保险月均金额 v_208
    L3_CHANNEL_CTR_INSURE_MONTHAVG_C 三个月内柜台购买保险月均笔数 v_209
    L3_CHANNEL_CTR_GLOAN_MONTHAVG_AM 三个月内柜台购买国债月均金额 v_210
    L3_CHANNEL_CTR_GLOAN_MONTHAVG_CN 三个月内柜台购买国债月均笔数 v_211
    L6_CHANNEL_CTR_FUND_MONTHAVG_AMT 六个月内柜台购买基金月均金额 v_212
    L6_CHANNEL_CTR_FUND_MONTHAVG_CNT 六个月内柜台购买基金月均笔数 v_213
    L6_CHANNEL_CTR_FINANCIAL_MONTHAV 六个月内柜台购买理财月均金额 v_214
    L6_CHANNEL_CTR_FINANCIAL_MONTHA0 六个月内柜台购买理财月均笔数 v_215
    L6_CHANNEL_CTR_INSURE_MONTHAVG_A 六个月内柜台购买保险月均金额 v_216
    L6_CHANNEL_CTR_INSURE_MONTHAVG_C 六个月内柜台购买保险月均笔数 v_217
    L6_CHANNEL_CTR_GLOAN_MONTHAVG_AM 六个月内柜台购买国债月均金额 v_218
    L6_CHANNEL_CTR_GLOAN_MONTHAVG_CN 六个月内柜台购买国债月均笔数 v_219
    CHANNEL_WEBBANK_FUND_AMT 本期网银购买基金金额 v_220
    CHANNEL_WEBBANK_FUND_CNT 本期网银购买基金笔数 v_221
    CHANNEL_WEBBANK_FINANCIAL_AMT 本期网银购买理财金额 v_222
    CHANNEL_WEBBANK_FINANCIAL_CNT 本期网银购买理财笔数 v_223
    CHANNEL_WEBBANK_INSURE_AMT 本期网银购买保险金额 v_224
    CHANNEL_WEBBANK_INSURE_CNT 本期网银购买保险笔数 v_225
    CHANNEL_WEBBANK_GLOAN_AMT 本期网银购买国债金额 v_226
    CHANNEL_WEBBANK_GLOAN_CNT 本期网银购买国债笔数 v_227
    L3_CHANNEL_WEBBANK_FUND_MONTHAVG 三个月内网银购买基金月均金额 v_228
    L3_CHANNEL_WEBBANK_FUND_MONTHAV0 三个月内网银购买基金月均笔数 v_229
    L3_CHANNEL_WEBBANK_FINANCIAL_MON 三个月内网银购买理财月均金额 v_230
    L3_CHANNEL_WEBBANK_FINANCIAL_MO0 三个月内网银购买理财月均笔数 v_231
    L3_CHANNEL_WEBBANK_INSURE_MONTHA 三个月内网银购买保险月均金额 v_232
    L3_CHANNEL_WEBBANK_INSURE_MONTH0 三个月内网银购买保险月均笔数 v_233
    L3_CHANNEL_WEBBANK_GLOAN_MONTHAV 三个月内网银购买国债月均金额 v_234
    L3_CHANNEL_WEBBANK_GLOAN_MONTHA0 三个月内网银购买国债月均笔数 v_235
    L6_CHANNEL_WEBBANK_FUND_MONTHAVG 六个月内网银购买基金月均金额 v_236
    L6_CHANNEL_WEBBANK_FUND_MONTHAV0 六个月内网银购买基金月均笔数 v_237
    L6_CHANNEL_WEBBANK_FINANCIAL_MON 六个月内网银购买理财月均金额 v_238
    L6_CHANNEL_WEBBANK_FINANCIAL_MO0 六个月内网银购买理财月均笔数 v_239
    L6_CHANNEL_WEBBANK_INSURE_MONTHA 六个月内网银购买保险月均金额 v_240
    L6_CHANNEL_WEBBANK_INSURE_MONTH0 六个月内网银购买保险月均笔数 v_241
    L6_CHANNEL_WEBBANK_GLOAN_MONTHAV 六个月内网银购买国债月均金额 v_242
    L6_CHANNEL_WEBBANK_GLOAN_MONTHA0 六个月内网银购买国债月均笔数 v_243
    CHANNEL_TELBANK_FUND_AMT 本期电话购买基金金额 v_244
    CHANNEL_TELBANK_FUND_CNT 本期电话购买基金笔数 v_245
    CHANNEL_TELBANK_FINANCIAL_AMT 本期电话购买理财金额 v_246
    CHANNEL_TELBANK_FINANCIAL_CNT 本期电话购买理财笔数 v_247
    CHANNEL_TELBANK_INSURE_AMT 本期电话购买保险金额 v_248
    CHANNEL_TELBANK_INSURE_CNT 本期电话购买保险笔数 v_249
    CHANNEL_TELBANK_GLOAN_AMT 本期电话购买国债金额 v_250
    CHANNEL_TELBANK_GLOAN_CNT 本期电话购买国债笔数 v_251
    L3_CHANNEL_TELBANK_FUND_MONTHAVG 三个月内电话购买基金月均金额 v_252
    L3_CHANNEL_TELBANK_FUND_MONTHAV0 三个月内电话购买基金月均笔数 v_253
    L3_CHANNEL_TELBANK_FINANCIAL_MON 三个月内电话购买理财月均金额 v_254
    L3_CHANNEL_TELBANK_FINANCIAL_MO0 三个月内电话购买理财月均笔数 v_255
    L3_CHANNEL_TELBANK_INSURE_MONTHA 三个月内电话购买保险月均金额 v_256
    L3_CHANNEL_TELBANK_INSURE_MONTH0 三个月内电话购买保险月均笔数 v_257
    L3_CHANNEL_TELBANK_GLOAN_MONTHAV 三个月内电话购买国债月均金额 v_258
    L3_CHANNEL_TELBANK_GLOAN_MONTHA0 三个月内电话购买国债月均笔数 v_259
    L6_CHANNEL_TELBANK_FUND_MONTHAVG 六个月内电话购买基金月均金额 v_260
    L6_CHANNEL_TELBANK_FUND_MONTHAV0 六个月内电话购买基金月均笔数 v_261
    L6_CHANNEL_TELBANK_FINANCIAL_MON 六个月内电话购买理财月均金额 v_262
    L6_CHANNEL_TELBANK_FINANCIAL_MO0 六个月内电话购买理财月均笔数 v_263
    L6_CHANNEL_TELBANK_INSURE_MONTHA 六个月内电话购买保险月均金额 v_264
    L6_CHANNEL_TELBANK_INSURE_MONTH0 六个月内电话购买保险月均笔数 v_265
    L6_CHANNEL_TELBANK_GLOAN_MONTHAV 六个月内电话购买国债月均金额 v_266
    L6_CHANNEL_TELBANK_GLOAN_MONTHA0 六个月内电话购买国债月均笔数 v_267
    CHANNEL_CTR_CREDIT_AMT 本期柜面贷方方交易金额 v_268
    CHANNEL_CTR_CREDIT_CNT 本期柜面贷方交易笔数 v_269
    CHANNEL_CTR_DEBIT_AMT 本期柜面借方交易金额 v_270
    CHANNEL_CTR_DEBIT_CNT 本期柜面借方交易笔数 v_271
    L3_CHANNEL_CTR_AVG_AMT 柜面三个月月均交易金额 v_272
    L3_CHANNEL_CTR_AVG_CNT 柜面三个月月均交易笔数 v_273
    L3_CHANNEL_CTR_IN_MAX_AMT 柜面转入三个月内最大交易金额 v_274
    L3_CHANNEL_CASH_IN_MAX_AMT 柜面存现三个月内最大交易金额 v_275
    L3_CHANNEL_TRANS_IN_MAX_AMT 柜面转账转入三个月内最大交易金额 v_276
    L3_CHANNEL_CTR_IN_MIN_AMT 柜面转入三个月内最小交易金额 v_277
    L3_CHANNEL_CASH_IN_MIN_AMT 柜面存现三个月内最小交易金额 v_278
    L3_CHANNEL_TRANS_IN_MIN_AMT 柜面转账转入三个月内最小交易金额 v_279
    L3_CHANNEL_CTR_OUT_MAX_AMT 柜面转出三个月内最大交易金额 v_280
    L3_CHANNEL_CASH_OUT_MAX_AMT 柜面取现三个月内最大交易金额 v_281
    L3_CHANNEL_TRANS_OUT_MAX_AMT 柜面转账转出三个月内最大交易金额 v_282
    L3_CHANNEL_CTR_OUT_MIN_AMT 柜面转出三个月内最小交易金额 v_283
    L3_CHANNEL_CASH_OUT_MIN_AMT 柜面取现三个月内最小交易金额 v_284
    L3_CHANNEL_TRANS_OUT_MIN_AMT 柜面转账转出三个月内最小交易金额 v_285
    L6_CHANNEL_CTR_AVG_AMT 柜面六个月月均交易金额 v_286
    L6_CHANNEL_CTR_AVG_CNT 柜面六个月月均交易笔数 v_287
    L6_CHANNEL_CTR_IN_MAX_AMT 柜面转入六个月内最大交易金额 v_288
    L6_CHANNEL_CASH_IN_MAX_AMT 柜面存现六个月内最大交易金额 v_289
    L6_CHANNEL_TRANS_IN_MAX_AMT 柜面转账转入六个月内最大交易金额 v_290
    L6_CHANNEL_CTR_IN_MIN_AMT 柜面转入六个月内最小交易金额 v_291
    L6_CHANNEL_CASH_IN_MIN_AMT 柜面存现六个月内最小交易金额 v_292
    L6_CHANNEL_TRANS_IN_MIN_AMT 柜面转账转入六个月内最小交易金额 v_293
    L6_CHANNEL_CTR_OUT_MAX_AMT 柜面转出六个月内最大交易金额 v_294
    L6_CHANNEL_CASH_OUT_MAX_AMT 柜面取现六个月内最大交易金额 v_295
    L6_CHANNEL_TRANS_OUT_MAX_AMT 柜面转账转出六个月内最大交易金额 v_296
    L6_CHANNEL_CTR_OUT_MIN_AMT 柜面转出六个月内最小交易金额 v_297
    L6_CHANNEL_CASH_OUT_MIN_AMT 柜面取现六个月内最小交易金额 v_298
    L6_CHANNEL_TRANS_OUT_MIN_AMT 柜面转账转出六个月内最小交易金额 v_299
    CHANNEL_MOBILE_DEBIT_AMT 本期手机银行借方交易金额 v_300
    CHANNEL_MOBILE_DEBIT_CNT 本期手机银行借方交易笔数 v_301
    CHANNEL_MOBILE_CREDIT_AMT 本期手机银行贷方交易金额 v_302
    CHANNEL_MOBILE_CREDIT_CNT 本期手机银行贷方交易笔数 v_303
    L3_CHANNEL_MOBILE_AVG_AMT 手机银行三个月月均交易金额 v_304
    L3_CHANNEL_MOBILE_AVG_CNT 手机银行三个月月均交易笔数 v_305
    L3_CHANNEL_MOBILE_IN_MAX_AMT 手机银行转入三个月内最大交易金额 v_306
    L3_CHANNEL_MOBILE_IN_MIN_AMT 手机银行转入三个月内最小交易金额 v_307
    L3_CHANNEL_MOBILE_OUT_MAX_AMT 手机银行转出三个月内最大交易金额 v_308
    L3_CHANNEL_MOBILE_OUT_MIN_AMT 手机银行转出三个月内最小交易金额 v_309
    L6_CHANNEL_MOBILE_AVG_AMT 手机银行六个月月均交易金额 v_310
    L6_CHANNEL_MOBILE_AVG_CNT 手机银行六个月月均交易笔数 v_311
    L6_CHANNEL_MOBILE_IN_MAX_AMT 手机银行转入六个月内最大交易金额 v_312
    L6_CHANNEL_MOBILE_IN_MIN_AMT 手机银行转入六个月内最小交易金额 v_313
    L6_CHANNEL_MOBILE_OUT_MAX_AMT 手机银行转出六个月内最大交易金额 v_314
    L6_CHANNEL_MOBILE_OUT_MIN_AMT 手机银行转出六个月内最小交易金额 v_315
    CHANNEL_INTER_DEBIT_AMT 本期网络银行借方交易金额 v_316
    CHANNEL_INTER_DEBIT_CNT 本期网络银行借方交易笔数 v_317
    CHANNEL_INTER_CREDIT_AMT 本期网络银行贷方交易金额 v_318
    CHANNEL_INTER_CREDIT_CNT 本期网络银行贷方交易笔数 v_319
    L3_CHANNEL_INTER_AVG_AMT 网络银行三个月月均交易金额 v_320
    L3_CHANNEL_INTER_AVG_CNT 网络银行三个月月均交易笔数 v_321
    L3_CHANNEL_INTER_IN_MAX_AMT 网络银行转入三个月内最大交易金额 v_322
    L3_CHANNEL_INTER_IN_MIN_AMT 网络银行转入三个月内最小交易金额 v_323
    L3_CHANNEL_INTER_OUT_MAX_AMT 网络银行转出三个月内最大交易金额 v_324
    L3_CHANNEL_INTER_OUT_MIN_AMT 网络银行转出三个月内最小交易金额 v_325
    L6_CHANNEL_INTER_AVG_AMT 网络银行六个月月均交易金额 v_326
    L6_CHANNEL_INTER_AVG_CNT 网络银行六个月月均交易笔数 v_327
    L6_CHANNEL_INTER_IN_MAX_AMT 网络银行转入六个月内最大交易金额 v_328
    L6_CHANNEL_INTER_IN_MIN_AMT 网络银行转入六个月内最小交易金额 v_329
    L6_CHANNEL_INTER_OUT_MAX_AMT 网络银行转出六个月内最大交易金额 v_330
    L6_CHANNEL_INTER_OUT_MIN_AMT 网络银行转出六个月内最小交易金额 v_331
    CHANNEL_AUTO_DEBIT_AMT 本期自助设备借方交易金额 v_332
    CHANNEL_AUTO_DEBIT_CNT 本期自助设备借方交易笔数 v_333
    CHANNEL_AUTO_CREDIT_AMT 本期自助设备贷方交易金额 v_334
    CHANNEL_AUTO_CREDIT_CNT 本期自助设备贷方交易笔数 v_335
    L3_CHANNEL_AUTO_AVG_AMT 自助设备三个月月均交易金额 v_336
    L3_CHANNEL_AUTO_AVG_CNT 自助设备三个月月均交易笔数 v_337
    L3_CHANNEL_AUTO_IN_MAX_AMT 自助设备转入三个月内最大交易金额 v_338
    L3_CHANNEL_AUTO_CASH_IN_MAX_AMT 自助设备存现三个月内最大交易金额 v_339
    L3_CHANNEL_AUTO_TRANS_IN_MAX_AMT 自助设备转账转入三个月内最大交易金额 v_340
    L3_CHANNEL_AUTO_IN_MIN_AMT 自助设备转入三个月内最小交易金额 v_341
    L3_CHANNEL_AUTO_CASH_IN_MIN_AMT 自助设备存现三个月内最小交易金额 v_342
    L3_CHANNEL_AUTO_TRANS_IN_MIN_AMT 自助设备转账转入三个月内最小交易金额 v_343
    L3_CHANNEL_AUTO_OUT_MAX_AMT 自助设备转出三个月内最大交易金额 v_344
    L3_CHANNEL_AUTO_CASH_OUT_MAX_AMT 自助设备取现三个月内最大交易金额 v_345
    L3_CHANNEL_AUTO_TRANS_OUT_MAX_AM 自助设备转账转出三个月内最大交易金额 v_346
    L3_CHANNEL_AUTO_OUT_MIN_AMT 自助设备转出三个月内最小交易金额 v_347
    L3_CHANNEL_AUTO_CASH_OUT_MIN_AMT 自助设备取现三个月内最小交易金额 v_348
    L3_CHANNEL_AUTO_TRANS_OUT_MIN_AM 自助设备转账转出三个月内最小交易金额 v_349
    L6_CHANNEL_AUTO_AVG_AMT 自助设备六个月月均交易金额 v_350
    L6_CHANNEL_AUTO_AVG_CNT 自助设备六个月月均交易笔数 v_351
    L6_CHANNEL_AUTO_IN_MAX_AMT 自助设备转入六个月内最大交易金额 v_352
    L6_CHANNEL_AUTO_CASH_IN_MAX_AMT 自助设备转存现六个月内最大交易金额 v_353
    L6_CHANNEL_AUTO_TRANS_IN_MAX_AMT 自助设备转账转入六个月内最大交易金额 v_354
    L6_CHANNEL_AUTO_IN_MIN_AMT 自助设备转入六个月内最小交易金额 v_355
    L6_CHANNEL_AUTO_CASH_IN_MIN_AMT 自助设备存现六个月内最小交易金额 v_356
    L6_CHANNEL_AUTO_TRANS_IN_MIN_AMT 自助设备转账转入六个月内最小交易金额 v_357
    L6_CHANNEL_AUTO_OUT_MAX_AMT 自助设备转出六个月内最大交易金额 v_358
    L6_CHANNEL_AUTO_CASH_OUT_MAX_AMT 自助设备取现六个月内最大交易金额 v_359
    L6_CHANNEL_AUTO_TRANS_OUT_MAX_AM 自助设备转账转出六个月内最大交易金额 v_360
    L6_CHANNEL_AUTO_OUT_MIN_AMT 自助设备转出六个月内最小交易金额 v_361
    L6_CHANNEL_AUTO_CASH_OUT_MIN_AMT 自助设备取现六个月内最小交易金额 v_362
    L6_CHANNEL_AUTO_TRANS_OUT_MIN_AM 自助设备转账转出六个月内最小交易金额 v_363
    CHANNEL_MSPOS_DEBIT_AMT 本期本行POS借方交易金额 v_364
    CHANNEL_MSPOS_DEBIT_CNT 本期本行POS借方交易笔数 v_365
    CHANNEL_MSPOS_CREDIT_AMT 本期本行POS贷方交易金额 v_366
    CHANNEL_MSPOS_CREDIT_CNT 本期本行POS贷方交易笔数 v_367
    CHANNEL_DAY_MSPOS_DEBIT_MAXAMT 本期单日本行POS借方最大交易金额 v_368
    CHANNEL_DAY_MSPOS_CREDIT_MAXAMT 本期单日本行POS贷方最大交易金额 v_369
    CHANNEL_DAY_MSPOS_DEBIT_MINAMT 本期单日本行POS借方最小交易金额 v_370
    CHANNEL_DAY_MSPOS_CREDIT_MINAMT 本期单日本行POS贷方最小交易金额 v_371
    L3_CHANNEL_MSPOS_DEBIT_AVG_AMT 本行POS三个月借方月均交易金额 v_372
    L3_CHANNEL_MSPOS_DEBIT_AVG_CNT 本行POS三个月借方月均交易笔数 v_373
    L3_CHANNEL_MSPOS_CREDIT_AVG_AMT 本行POS三个月贷方月均交易金额 v_374
    L3_CHANNEL_MSPOS_CREDIT_AVG_CNT 本行POS三个月贷方月均交易笔数 v_375
    L3_CHANNEL_DAY_MSPOS_DEBIT_MAXAM 三个月内单日本行POS借方最大交易金额 v_376
    L3_CHANNEL_DAY_MSPOS_CREDIT_MAXA 三个月内单日本行POS贷方最大交易金额 v_377
    L3_CHANNEL_DAY_MSPOS_DEBIT_MINAM 三个月内单日本行POS借方最小交易金额 v_378
    L3_CHANNEL_DAY_MSPOS_CREDIT_MINA 三个月内单日本行POS贷方最小交易金额 v_379
    L3_CHANNEL_SIGLE_MSPOS_DEBIT_MAX 三个月内单笔本行POS借方最大交易金额 v_380
    L3_CHANNEL_SIGLE_MSPOS_CREDIT_MA 三个月内单笔本行POS贷方最大交易金额 v_381
    L3_CHANNEL_SIGLE_MSPOS_DEBIT_MIN 三个月内单笔本行POS借方最小交易金额 v_382
    L3_CHANNEL_SIGLE_MSPOS_CREDIT_MI 三个月内单笔本行POS贷方最小交易金额 v_383
    L6_CHANNEL_MSPOS_DEBIT_AVG_AMT 本行POS六个月借方月均交易金额 v_384
    L6_CHANNEL_MSPOS_DEBIT_AVG_CNT 本行POS六个月借方月均交易笔数 v_385
    L6_CHANNEL_MSPOS_CREDIT_AVG_AMT 本行POS六个月贷方月均交易金额 v_386
    L6_CHANNEL_MSPOS_CREDIT_AVG_CNT 本行POS六个月贷方月均交易笔数 v_387
    L6_CHANNEL_DAY_MSPOS_DEBIT_MAXAM 六个月内单日本行POS借方最大交易金额 v_388
    L6_CHANNEL_DAY_MSPOS_CREDIT_MAXA 六个月内单日本行POS贷方最大交易金额 v_389
    L6_CHANNEL_DAY_MSPOS_DEBIT_MINAM 六个月内单日本行POS借方最小交易金额 v_390
    L6_CHANNEL_DAY_MSPOS_CREDIT_MINA 六个月内单日本行POS贷方最小交易金额 v_391
    L6_CHANNEL_SIGLE_MSPOS_DEBIT_MAX 六个月内单笔本行POS借方最大交易金额 v_392
    L6_CHANNEL_SIGLE_MSPOS_CREDIT_MA 六个月内单笔本行POS贷方最大交易金额 v_393
    L6_CHANNEL_SIGLE_MSPOS_DEBIT_MIN 六个月内单笔本行POS借方最小交易金额 v_394
    L6_CHANNEL_SIGLE_MSPOS_CREDIT_MI 六个月内单笔本行POS贷方最小交易金额 v_395
    CHANNEL_OTRPOS_DEBIT_AMT 本期他行POS借方交易金额 v_396
    CHANNEL_OTRPOS_DEBIT_CNT 本期他行POS借方交易笔数 v_397
    CHANNEL_OTRPOS_CREDIT_AMT 本期他行POS贷方交易金额 v_398
    CHANNEL_OTRPOS_CREDIT_CNT 本期他行POS贷方交易笔数 v_399
    CHANNEL_DAY_OTRPOS_DEBIT_MAXAMT 本期单日他行POS借方最大交易金额 v_400
    CHANNEL_DAY_OTRPOS_CREDIT_MAXAMT 本期单日他行POS贷方最大交易金额 v_401
    CHANNEL_DAY_OTRPOS_DEBIT_MINAMT 本期单日他行POS借方最小交易金额 v_402
    CHANNEL_DAY_OTRPOS_CREDIT_MINAMT 本期单日他行POS贷方最小交易金额 v_403
    L3_CHANNEL_OTRPOS_DEBIT_AVG_AMT 他行POS三个月借方月均交易金额 v_404
    L3_CHANNEL_OTRPOS_DEBIT_AVG_CNT 他行POS三个月借方月均交易笔数 v_405
    L3_CHANNEL_OTRPOS_CREDIT_AVG_AMT 他行POS三个月贷方月均交易金额 v_406
    L3_CHANNEL_OTRPOS_CREDIT_AVG_CNT 他行POS三个月贷方月均交易笔数 v_407
    L3_CHANNEL_DAY_OTRPOS_DEBIT_MAXA 三个月内单日他行POS借方最大交易金额 v_408
    L3_CHANNEL_DAY_OTRPOS_CREDIT_MAX 三个月内单日他行POS贷方最大交易金额 v_409
    L3_CHANNEL_DAY_OTRPOS_DEBIT_MINA 三个月内单日他行POS借方最小交易金额 v_410
    L3_CHANNEL_DAY_OTRPOS_CREDIT_MIN 三个月内单日他行POS贷方最小交易金额 v_411
    L3_CHANNEL_SIGLE_OTRPOS_DEBIT_MA 三个月内单笔他行POS借方最大交易金额 v_412
    L3_CHANNEL_SIGLE_OTRPOS_CREDIT_M 三个月内单笔他行POS贷方最大交易金额 v_413
    L3_CHANNEL_SIGLE_OTRPOS_DEBIT_MI 三个月内单笔他行POS借方最小交易金额 v_414
    L3_CHANNEL_SIGLE_OTRPOS_CREDIT_0 三个月内单笔他行POS贷方最小交易金额 v_415
    L6_CHANNEL_OTRPOS_DEBIT_AVG_AMT 他行POS六个月借方月均交易金额 v_416
    L6_CHANNEL_OTRPOS_DEBIT_AVG_CNT 他行POS六个月借方月均交易笔数 v_417
    L6_CHANNEL_OTRPOS_CREDIT_AVG_AMT 他行POS六个月贷方月均交易金额 v_418
    L6_CHANNEL_OTRPOS_CREDIT_AVG_CNT 他行POS六个月贷方月均交易笔数 v_419
    L6_CHANNEL_DAY_OTRPOS_DEBIT_MAXA 六个月内单日他行POS借方最大交易金额 v_420
    L6_CHANNEL_DAY_OTRPOS_CREDIT_MAX 六个月内单日他行POS贷方最大交易金额 v_421
    L6_CHANNEL_DAY_OTRPOS_DEBIT_MINA 六个月内单日他行POS借方最小交易金额 v_422
    L6_CHANNEL_DAY_OTRPOS_CREDIT_MIN 六个月内单日他行POS贷方最小交易金额 v_423
    L6_CHANNEL_SIGLE_OTRPOS_DEBIT_MA 六个月内单笔他行POS借方最大交易金额 v_424
    L6_CHANNEL_SIGLE_OTRPOS_CREDIT_M 六个月内单笔他行POS贷方最大交易金额 v_425
    L6_CHANNEL_SIGLE_OTRPOS_DEBIT_MI 六个月内单笔他行POS借方最小交易金额 v_426
    L6_CHANNEL_SIGLE_OTRPOS_CREDIT_0 六个月内单笔他行POS贷方最小交易金额 v_427
    CHANNEL_OTHER_DEBIT_AMT 本期其它借方交易金额 v_428
    CHANNEL_OTHER_DEBIT_CNT 本期其它借方交易笔数 v_429
    CHANNEL_OTHER_CREDIT_AMT 本期其它贷方交易金额 v_430
    CHANNEL_OTHER_CREDIT_CNT 本期其它贷方交易笔数 v_431
    CHANNEL_OTHER_IN_MAX_AMT 本期其它转入最大交易金额 v_432
    CHANNEL_OTHER_IN_MIN_AMT 本期其它转入最小交易金额 v_433
    L3_CHANNEL_OTHER_AVG_AMT 其它三个月月均交易金额 v_434
    L3_CHANNEL_OTHER_AVG_CNT 其它三个月月均交易笔数 v_435
    L3_CHANNEL_OTHER_IN_MAX_AMT 其它转入三个月内最大交易金额 v_436
    L3_CHANNEL_OTHER_IN_MIN_AMT 其它转入三个月内最小交易金额 v_437
    L3_CHANNEL_OTHER_OUT_MAX_AMT 其它转出三个月内最大交易金额 v_438
    L3_CHANNEL_OTHER_OUT_MIN_AMT 其它转出三个月内最小交易金额 v_439
    L6_CHANNEL_OTHER_AVG_AMT 其它六个月月均交易金额 v_440
    L6_CHANNEL_OTHER_AVG_CNT 其它六个月月均交易笔数 v_441
    L6_CHANNEL_OTHER_IN_MAX_AMT 其它转入六个月内最大交易金额 v_442
    L6_CHANNEL_OTHER_IN_MIN_AMT 其它转入六个月内最小交易金额 v_443
    L6_CHANNEL_OTHER_OUT_MAX_AMT 其它转出六个月内最大交易金额 v_444
    L6_CHANNEL_OTHER_OUT_MIN_AMT 其它转出六个月内最小交易金额 v_445
    LG_TXN_AMT 本期大额交易金额 v_446
    LG_TXN_CNT 本期大额交易笔数 v_447
    L3_LG_TXN_AVG_AMT 三个月月均大额交易金额 v_448
    L3_LG_TXN_AVG_CNT 三个月月均大额交易笔数 v_449
    L6_LG_TXN_AVG_AMT 六个月月均大额交易金额 v_450
    L6_LG_TXN_AVG_CNT 六个月月均大额交易笔数 v_451
    CHANNEL_CTR_STAIN_AMT 柜面同名他行转入交易金额 v_452
    CHANNEL_CTR_SOUTTA_AMT 柜面同名转出他行交易金额 v_453
    CHANNEL_CTR_DTAIN_AMT 柜面异名他行转入交易金额 v_454
    CHANNEL_CTR_DOUTTA_AMT 柜面异名转出他行交易金额 v_455
    CHANNEL_CTR_STAIN_CNT 柜面同名他行转入交易笔数 v_456
    CHANNEL_CTR_SOUTTA_CNT 柜面同名转出他行交易笔数 v_457
    CHANNEL_CTR_DTAIN_CNT 柜面异名他行转入交易笔数 v_458
    CHANNEL_CTR_DOUTTA_CNT 柜面异名转出他行交易笔数 v_459
    L3_CHANNEL_CTR_STAIN_AVGAMT 三个月内柜面同名他行转入月均交易金额 v_460
    L3_CHANNEL_CTR_SOUTTA_AVGAMT 三个月内柜面同名转出他行月均交易金额 v_461
    L3_CHANNEL_CTR_DTAIN_AVGAMT 三个月内柜面异名他行转入月均交易金额 v_462
    L3_CHANNEL_CTR_DOUTTA_AVGAMT 三个月内柜面异名转出他行月均交易金额 v_463
    L3_CHANNEL_CTR_STAIN_AVGCNT 三个月内柜面同名他行转入月均交易笔数 v_464
    L3_CHANNEL_CTR_SOUTTA_AVGCNT 三个月内柜面同名转出他行月均交易笔数 v_465
    L3_CHANNEL_CTR_DTAIN_AVGCNT 三个月内柜面异名他行转入月均交易笔数 v_466
    L3_CHANNEL_CTR_DOUTTA_AVGCNT 三个月内柜面异名转出他行月均交易笔数 v_467
    L3_CHANNEL_CTR_STAIN_MAXAMT 三个月内柜面同名他行转入最大交易金额 v_468
    L3_CHANNEL_CTR_SOUTTA_MAXAMT 三个月内柜面同名转出他行最大交易金额 v_469
    L3_CHANNEL_CTR_DTAIN_MAXAMT 三个月内柜面异名他行转入最大交易金额 v_470
    L3_CHANNEL_CTR_DOUTTA_MAXAMT 三个月内柜面异名转出他行最大交易金额 v_471
    L3_CHANNEL_CTR_STAIN_MINAMT 三个月内柜面同名他行转入最小交易金额 v_472
    L3_CHANNEL_CTR_SOUTTA_MINAMT 三个月内柜面同名转出他行最小交易金额 v_473
    L3_CHANNEL_CTR_DTAIN_MINAMT 三个月内柜面异名他行转入最小交易金额 v_474
    L3_CHANNEL_CTR_DOUTTA_MINAMT 三个月内柜面异名转出他行最小交易金额 v_475
    L6_CHANNEL_CTR_STAIN_AVGAMT 六个月内柜面同名他行转入月均交易金额 v_476
    L6_CHANNEL_CTR_SOUTTA_AVGAMT 六个月内柜面同名转出他行月均交易金额 v_477
    L6_CHANNEL_CTR_DTAIN_AVGAMT 六个月内柜面异名他行转入月均交易金额 v_478
    L6_CHANNEL_CTR_DOUTTA_AVGAMT 六个月内柜面异名转出他行月均交易金额 v_479
    L6_CHANNEL_CTR_STAIN_AVGCNT 六个月内柜面同名他行转入月均交易笔数 v_480
    L6_CHANNEL_CTR_SOUTTA_AVGCNT 六个月内柜面同名转出他行月均交易笔数 v_481
    L6_CHANNEL_CTR_DTAIN_AVGCNT 六个月内柜面异名他行转入月均交易笔数 v_482
    L6_CHANNEL_CTR_DOUTTA_AVGCNT 六个月内柜面异名转出他行月均交易笔数 v_483
    L6_CHANNEL_CTR_STAIN_MAXAMT 六个月内柜面同名他行转入最大交易金额 v_484
    L6_CHANNEL_CTR_SOUTTA_MAXAMT 六个月内柜面同名转出他行最大交易金额 v_485
    L6_CHANNEL_CTR_DTAIN_MAXAMT 六个月内柜面异名他行转入最大交易金额 v_486
    L6_CHANNEL_CTR_DOUTTA_MAXAMT 六个月内柜面异名转出他行最大交易金额 v_487
    L6_CHANNEL_CTR_STAIN_MINAMT 六个月内柜面同名他行转入最小交易金额 v_488
    L6_CHANNEL_CTR_SOUTTA_MINAMT 六个月内柜面同名转出他行最小交易金额 v_489
    L6_CHANNEL_CTR_DTAIN_MINAMT 六个月内柜面异名他行转入最小交易金额 v_490
    L6_CHANNEL_CTR_DOUTTA_MINAMT 六个月内柜面异名转出他行最小交易金额 v_491
    CHANNEL_WEB_STAIN_AMT 网银同名他行转入交易金额 v_492
    CHANNEL_WEB_SOUTTA_AMT 网银同名转出他行交易金额 v_493
    CHANNEL_WEB_DTAIN_AMT 网银异名他行转入交易金额 v_494
    CHANNEL_WEB_DOUTTA_AMT 网银异名转出他行交易金额 v_495
    CHANNEL_WEB_STAIN_CNT 网银同名他行转入交易笔数 v_496
    CHANNEL_WEB_SOUTTA_CNT 网银同名转出他行交易笔数 v_497
    CHANNEL_WEB_DTAIN_CNT 网银异名他行转入交易笔数 v_498
    CHANNEL_WEB_DOUTTA_CNT 网银异名转出他行交易笔数 v_499
    L3_CHANNEL_WEB_STAIN_AVGAMT 三个月内网银同名他行转入月均交易金额 v_500
    L3_CHANNEL_WEB_SOUTTA_AVGAMT 三个月内网银同名转出他行月均交易金额 v_501
    L3_CHANNEL_WEB_DTAIN_AVGAMT 三个月内网银异名他行转入月均交易金额 v_502
    L3_CHANNEL_WEB_DOUTTA_AVGAMT 三个月内网银异名转出他行月均交易金额 v_503
    L3_CHANNEL_WEB_STAIN_AVGCNT 三个月内网银同名他行转入月均交易笔数 v_504
    L3_CHANNEL_WEB_SOUTTA_AVGCNT 三个月内网银同名转出他行月均交易笔数 v_505
    L3_CHANNEL_WEB_DTAIN_AVGCNT 三个月内网银异名他行转入月均交易笔数 v_506
    L3_CHANNEL_WEB_DOUTTA_AVGCNT 三个月内网银异名转出他行月均交易笔数 v_507
    L3_CHANNEL_WEB_STAIN_MAXAMT 三个月内网银同名他行转入最大交易金额 v_508
    L3_CHANNEL_WEB_SOUTTA_MAXAMT 三个月内网银同名转出他行最大交易金额 v_509
    L3_CHANNEL_WEB_DTAIN_MAXAMT 三个月内网银异名他行转入最大交易金额 v_510
    L3_CHANNEL_WEB_DOUTTA_MAXAMT 三个月内网银异名转出他行最大交易金额 v_511
    L3_CHANNEL_WEB_STAIN_MINAMT 三个月内网银同名他行转入最小交易金额 v_512
    L3_CHANNEL_WEB_SOUTTA_MINAMT 三个月内网银同名转出他行最小交易金额 v_513
    L3_CHANNEL_WEB_DTAIN_MINAMT 三个月内网银异名他行转入最小交易金额 v_514
    L3_CHANNEL_WEB_DOUTTA_MINAMT 三个月内网银异名转出他行最小交易金额 v_515
    L6_CHANNEL_WEB_STAIN_AVGAMT 六个月内网银同名他行转入月均交易金额 v_516
    L6_CHANNEL_WEB_SOUTTA_AVGAMT 六个月内网银同名转出他行月均交易金额 v_517
    L6_CHANNEL_WEB_DTAIN_AVGAMT 六个月内网银异名他行转入月均交易金额 v_518
    L6_CHANNEL_WEB_DOUTTA_AVGAMT 六个月内网银异名转出他行月均交易金额 v_519
    L6_CHANNEL_WEB_STAIN_AVGCNT 六个月内网银同名他行转入月均交易笔数 v_520
    L6_CHANNEL_WEB_SOUTTA_AVGCNT 六个月内网银同名转出他行月均交易笔数 v_521
    L6_CHANNEL_WEB_DTAIN_AVGCNT 六个月内网银异名他行转入月均交易笔数 v_522
    L6_CHANNEL_WEB_DOUTTA_AVGCNT 六个月内网银异名转出他行月均交易笔数 v_523
    L6_CHANNEL_WEB_STAIN_MAXAMT 六个月内网银同名他行转入最大交易金额 v_524
    L6_CHANNEL_WEB_SOUTTA_MAXAMT 六个月内网银同名转出他行最大交易金额 v_525
    L6_CHANNEL_WEB_DTAIN_MAXAMT 六个月内网银异名他行转入最大交易金额 v_526
    L6_CHANNEL_WEB_DOUTTA_MAXAMT 六个月内网银异名转出他行最大交易金额 v_527
    L6_CHANNEL_WEB_STAIN_MINAMT 六个月内网银同名他行转入最小交易金额 v_528
    L6_CHANNEL_WEB_SOUTTA_MINAMT 六个月内网银同名转出他行最小交易金额 v_529
    L6_CHANNEL_WEB_DTAIN_MINAMT 六个月内网银异名他行转入最小交易金额 v_530
    L6_CHANNEL_WEB_DOUTTA_MINAMT 六个月内网银异名转出他行最小交易金额 v_531
    CHANNEL_TEL_STAIN_AMT 电话银行同名他行转入交易金额 v_532
    CHANNEL_TEL_SOUTTA_AMT 电话银行同名转出他行交易金额 v_533
    CHANNEL_TEL_DTAIN_AMT 电话银行异名他行转入交易金额 v_534
    CHANNEL_TEL_DOUTTA_AMT 电话银行异名转出他行交易金额 v_535
    CHANNEL_TEL_STAIN_CNT 电话银行同名他行转入交易笔数 v_536
    CHANNEL_TEL_SOUTTA_CNT 电话银行同名转出他行交易笔数 v_537
    CHANNEL_TEL_DTAIN_CNT 电话银行异名他行转入交易笔数 v_538
    CHANNEL_TEL_DOUTTA_CNT 电话银行异名转出他行交易笔数 v_539
    L3_CHANNEL_TEL_STAIN_AVGAMT 三个月内电话银行同名他行转入月均交易金额 v_540
    L3_CHANNEL_TEL_SOUTTA_AVGAMT 三个月内电话银行同名转出他行月均交易金额 v_541
    L3_CHANNEL_TEL_DTAIN_AVGAMT 三个月内电话银行异名他行转入月均交易金额 v_542
    L3_CHANNEL_TEL_DOUTTA_AVGAMT 三个月内电话银行异名转出他行月均交易金额 v_543
    L3_CHANNEL_TEL_STAIN_AVGCNT 三个月内电话银行同名他行转入月均交易笔数 v_544
    L3_CHANNEL_TEL_SOUTTA_AVGCNT 三个月内电话银行同名转出他行月均交易笔数 v_545
    L3_CHANNEL_TEL_DTAIN_AVGCNT 三个月内电话银行异名他行转入月均交易笔数 v_546
    L3_CHANNEL_TEL_DOUTTA_AVGCNT 三个月内电话银行异名转出他行月均交易笔数 v_547
    L6_CHANNEL_TEL_STAIN_AVGAMT 六个月内电话银行同名他行转入月均交易金额 v_548
    L6_CHANNEL_TEL_SOUTTA_AVGAMT 六个月内电话银行同名转出他行月均交易金额 v_549
    L6_CHANNEL_TEL_DTAIN_AVGAMT 六个月内电话银行异名他行转入月均交易金额 v_550
    L6_CHANNEL_TEL_DOUTTA_AVGAMT 六个月内电话银行异名转出他行月均交易金额 v_551
    L6_CHANNEL_TEL_STAIN_AVGCNT 六个月内电话银行同名他行转入月均交易笔数 v_552
    L6_CHANNEL_TEL_SOUTTA_AVGCNT 六个月内电话银行同名转出他行月均交易笔数 v_553
    L6_CHANNEL_TEL_DTAIN_AVGCNT 六个月内电话银行异名他行转入月均交易笔数 v_554
    L6_CHANNEL_TEL_DOUTTA_AVGCNT 六个月内电话银行异名转出他行月均交易笔数 v_555
    CHANNEL_MOB_STAIN_AMT 手机银行同名他行转入交易金额 v_556
    CHANNEL_MOB_SOUTTA_AMT 手机银行同名转出他行交易金额 v_557
    CHANNEL_MOB_DTAIN_AMT 手机银行异名他行转入交易金额 v_558
    CHANNEL_MOB_DOUTTA_AMT 手机银行异名转出他行交易金额 v_559
    CHANNEL_MOB_STAIN_CNT 手机银行同名他行转入交易笔数 v_560
    CHANNEL_MOB_SOUTTA_CNT 手机银行同名转出他行交易笔数 v_561
    CHANNEL_MOB_DTAIN_CNT 手机银行异名他行转入交易笔数 v_562
    CHANNEL_MOB_DOUTTA_CNT 手机银行异名转出他行交易笔数 v_563
    L3_CHANNEL_MOB_STAIN_AVGAMT 三个月内手机银行同名他行转入月均交易金额 v_564
    L3_CHANNEL_MOB_SOUTTA_AVGAMT 三个月内手机银行同名转出他行月均交易金额 v_565
    L3_CHANNEL_MOB_DTAIN_AVGAMT 三个月内手机银行异名他行转入月均交易金额 v_566
    L3_CHANNEL_MOB_DOUTTA_AVGAMT 三个月内手机银行异名转出他行月均交易金额 v_567
    L3_CHANNEL_MOB_STAIN_AVGCNT 三个月内手机银行同名他行转入月均交易笔数 v_568
    L3_CHANNEL_MOB_SOUTTA_AVGCNT 三个月内手机银行同名转出他行月均交易笔数 v_569
    L3_CHANNEL_MOB_DTAIN_AVGCNT 三个月内手机银行异名他行转入月均交易笔数 v_570
    L3_CHANNEL_MOB_DOUTTA_AVGCNT 三个月内手机银行异名转出他行月均交易笔数 v_571
    L6_CHANNEL_MOB_STAIN_AVGAMT 六个月内手机银行同名他行转入月均交易金额 v_572
    L6_CHANNEL_MOB_SOUTTA_AVGAMT 六个月内手机银行同名转出他行月均交易金额 v_573
    L6_CHANNEL_MOB_DTAIN_AVGAMT 六个月内手机银行异名他行转入月均交易金额 v_574
    L6_CHANNEL_MOB_DOUTTA_AVGAMT 六个月内手机银行异名转出他行月均交易金额 v_575
    L6_CHANNEL_MOB_STAIN_AVGCNT 六个月内手机银行同名他行转入月均交易笔数 v_576
    L6_CHANNEL_MOB_SOUTTA_AVGCNT 六个月内手机银行同名转出他行月均交易笔数 v_577
    L6_CHANNEL_MOB_DTAIN_AVGCNT 六个月内手机银行异名他行转入月均交易笔数 v_578
    L6_CHANNEL_MOB_DOUTTA_AVGCNT 六个月内手机银行异名转出他行月均交易笔数 v_579
    CHANNEL_AUTO_STAIN_AMT 自助设备同名他行转入交易金额 v_580
    CHANNEL_AUTO_SOUTTA_AMT 自助设备同名转出他行交易金额 v_581
    CHANNEL_AUTO_DTAIN_AMT 自助设备异名他行转入交易金额 v_582
    CHANNEL_AUTO_DOUTTA_AMT 自助设备异名转出他行交易金额 v_583
    CHANNEL_AUTO_STAIN_CNT 自助设备同名他行转入交易笔数 v_584
    CHANNEL_AUTO_SOUTTA_CNT 自助设备同名转出他行交易笔数 v_585
    CHANNEL_AUTO_DTAIN_CNT 自助设备异名他行转入交易笔数 v_586
    CHANNEL_AUTO_DOUTTA_CNT 自助设备异名转出他行交易笔数 v_587
    L3_CHANNEL_AUTO_STAIN_AVGAMT 三个月内自助设备同名他行转入月均交易金额 v_588
    L3_CHANNEL_AUTO_SOUTTA_AVGAMT 三个月内自助设备同名转出他行月均交易金额 v_589
    L3_CHANNEL_AUTO_DTAIN_AVGAMT 三个月内自助设备异名他行转入月均交易金额 v_590
    L3_CHANNEL_AUTO_DOUTTA_AVGAMT 三个月内自助设备异名转出他行月均交易金额 v_591
    L3_CHANNEL_AUTO_STAIN_AVGCNT 三个月内自助设备同名他行转入月均交易笔数 v_592
    L3_CHANNEL_AUTO_SOUTTA_AVGCNT 三个月内自助设备同名转出他行月均交易笔数 v_593
    L3_CHANNEL_AUTO_DTAIN_AVGCNT 三个月内自助设备异名他行转入月均交易笔数 v_594
    L3_CHANNEL_AUTO_DOUTTA_AVGCNT 三个月内自助设备异名转出他行月均交易笔数 v_595
    L6_CHANNEL_AUTO_STAIN_AVGAMT 六个月内自助设备同名他行转入月均交易金额 v_596
    L6_CHANNEL_AUTO_SOUTTA_AVGAMT 六个月内自助设备同名转出他行月均交易金额 v_597
    L6_CHANNEL_AUTO_DTAIN_AVGAMT 六个月内自助设备异名他行转入月均交易金额 v_598
    L6_CHANNEL_AUTO_DOUTTA_AVGAMT 六个月内自助设备异名转出他行月均交易金额 v_599
    L6_CHANNEL_AUTO_STAIN_AVGCNT 六个月内自助设备同名他行转入月均交易笔数 v_600
    L6_CHANNEL_AUTO_SOUTTA_AVGCNT 六个月内自助设备同名转出他行月均交易笔数 v_601
    L6_CHANNEL_AUTO_DTAIN_AVGCNT 六个月内自助设备异名他行转入月均交易笔数 v_602
    L6_CHANNEL_AUTO_DOUTTA_AVGCNT 六个月内自助设备异名转出他行月均交易笔数 v_603
    CHANNEL_TXN_STAIN_AMT 大额交易同名他行转入交易金额 v_604
    CHANNEL_TXN_SOUTTA_AMT 大额交易同名转出他行交易金额 v_605
    CHANNEL_TXN_DTAIN_AMT 大额交易异名他行转入交易金额 v_606
    CHANNEL_TXN_DOUTTA_AMT 大额交易异名转出他行交易金额 v_607
    CHANNEL_TXN_STAIN_CNT 大额交易同名他行转入交易笔数 v_608
    CHANNEL_TXN_SOUTTA_CNT 大额交易同名转出他行交易笔数 v_609
    CHANNEL_TXN_DTAIN_CNT 大额交易异名他行转入交易笔数 v_610
    CHANNEL_TXN_DOUTTA_CNT 大额交易异名转出他行交易笔数 v_611
    L3_CHANNEL_TXN_STAIN_AVGAMT 三个月内大额交易同名他行转入月均交易金额 v_612
    L3_CHANNEL_TXN_SOUTTA_AVGAMT 三个月内大额交易同名转出他行月均交易金额 v_613
    L3_CHANNEL_TXN_DTAIN_AVGAMT 三个月内大额交易异名他行转入月均交易金额 v_614
    L3_CHANNEL_TXN_DOUTTA_AVGAMT 三个月内大额交易异名转出他行月均交易金额 v_615
    L3_CHANNEL_TXN_STAIN_AVGCNT 三个月内大额交易同名他行转入月均交易笔数 v_616
    L3_CHANNEL_TXN_SOUTTA_AVGCNT 三个月内大额交易同名转出他行月均交易笔数 v_617
    L3_CHANNEL_TXN_DTAIN_AVGCNT 三个月内大额交易异名他行转入月均交易笔数 v_618
    L3_CHANNEL_TXN_DOUTTA_AVGCNT 三个月内大额交易异名转出他行月均交易笔数 v_619
    L6_CHANNEL_TXN_STAIN_AVGAMT 六个月内大额交易同名他行转入月均交易金额 v_620
    L6_CHANNEL_TXN_SOUTTA_AVGAMT 六个月内大额交易同名转出他行月均交易金额 v_621
    L6_CHANNEL_TXN_DTAIN_AVGAMT 六个月内大额交易异名他行转入月均交易金额 v_622
    L6_CHANNEL_TXN_DOUTTA_AVGAMT 六个月内大额交易异名转出他行月均交易金额 v_623
    L6_CHANNEL_TXN_STAIN_AVGCNT 六个月内大额交易同名他行转入月均交易笔数 v_624
    L6_CHANNEL_TXN_SOUTTA_AVGCNT 六个月内大额交易同名转出他行月均交易笔数 v_625
    L6_CHANNEL_TXN_DTAIN_AVGCNT 六个月内大额交易异名他行转入月均交易笔数 v_626
    L6_CHANNEL_TXN_DOUTTA_AVGCNT 六个月内大额交易异名转出他行月均交易笔数 v_627
    IDF_TYP_CD 证件类型 lc1
    IDF_TYP_CD 证件类型 lc2
    IDF_TYP_CD 证件类型 lc3
    DEP_TD_FLAG 持有定期存款标志 v_172_c
    CUST_SALARY_FINANCIAL_FLAG 是否薪资理财 v_31_c


    附录2:code
    /导入原始数据/
    libname loan “D:\2019XYT”;
    data loan.credit;
    set loan.creditmini;
    run;

    /检验有无重复观测id/
    / %ExtUnique /

    /dsdin为输入参数集,idvar为id变量,dsout为包含不同id的输出数据集,dsdup为包含重复id的输出数据集/
    %let idvar=cust_id;
    %let dsin=loan.credit;
    %let dsout=credit_id;
    %let dsdup=duplicate_id;
    %**_extunique
    (&dsin,&idvar,&dsout,&dsdup);

    />>>>>>>>>>>>>>>>>>>>>结论<<<<<<<<<<<<<<<<<<<<<<
    数据集loan.credit没有重复的观测,每一个id都是唯一的
    /

    proc logistic data=loan.practice_2_FA out=c1; /逻辑回归/
    model v_5(event=’1’)=
    FA_P1-FA_P9
    v_172_c v_100 v_2 v_20 v_19 v_50 v_31_c
    /selection=stepwise /全模型 运行不出来 数据量太多了/
    CLPARM=WALD
    RSQUARE /R^2越高越好 /
    lackfit
    stb
    outroc=roc1 /绘制ROC曲线/
    ;
    output out=pred p=phat /输出预测数据集pred/
    ;
    score out=c2
    ;
    run;

    proc contents data=loan.practice_2(drop=v_5) out=aaaa noprint;run;
    proc sql noprint;select name into:dev separated by ‘ ‘ from aaaa;quit;

    proc logistic data=loan.practice_2 out=c1; /逻辑回归/
    model v_5(event=’1’)=&dev.

    /selection=stepwise
    CLPARM=WALD
    RSQUARE /R^2越高越好 /
    lackfit
    stb
    outroc=roc1 /绘制ROC曲线/
    ;
    output out=pred p=phat /输出预测数据集pred/
    ;
    score out=c2
    ;
    run;

    proc hpsplit data=loan.Bpractice_2_fa maxdepth=5 ;
    class v_5 ;
    model v_5(event=’1’) = FA_P1 FA_P2 FA_P4 FA_P7 FA_P8
    v_101 lc3 v_72 v_70 v_172_c v_100 v_20 v_19 v_50 v_31_c v_49
    ;
    prune costcomplexity;
    partition fraction(validate=
    0.3 seed=123);
    code file=’d:\Bhpsplexc.sas’;
    rules file=’d:\Brules.txt’;
    run;

    data Bscored;
    set loan.Bpractice_2_fa;
    %include ‘d:\Bhpsplexc.sas’;
    run**;