变量识别 Variable Identification
Identify Predictor (Input) and Target (Output) variables. Next, identify the data type and category of the variables.
单变量分析 Univariate Analysis
连续型特征 Continuous Features
利用以下样本统计量或方法进行描述统计:
均值 Mean
中位数 Median
众数 Mode
最小值 Min
最大值 Max
范围 Range
四分位数 Quartile
四分位距 IQR
方差 Variance
标准差 Standard Deviation
偏度 Skewness
直方图 Histogram
箱线图 Box Plot
分类特征 Categorical Features
利用以下方法进行数据探索性分析:
频率 Frequency
条形图 Bar chart
双变量分析 Bi-variate Analysis
Finds out the relationship between two variables. 待补充分析。
Scatter Plot
散点图
Correlation Plot - Heatmap
热力图
Two-way table
We can start analyzing the relationship by creating a two-way table of count and count%.
Stacked Column Chart
堆叠柱状图
Chi-square Test:
This test is used to derive the statistical significance of relationship between the variables.
卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:
- 检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
- 检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
- 检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
- 检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
- 检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
Z-Test / T-Test
Z-检验和T-检验
ANOVA
方差分析