1.1问题一题目
- 步骤一:数据清洗:指出异常值、缺失数据、处理方法
步骤二:对数据做描述性统计分析:包括目标客户对于不同品牌汽车满意度的比较分析等
1.2问题一分析
步骤一:对异常数据和缺失数据进行填充
异常值:绘制箱线图(离群异常值),挖掘出落在四分位数加减1.5倍四分位距之外的潜在异常值。
- 缺失值:结合附件二的个人特征调查表,提取调查表问题本身的限制条件,并发掘调查问题之间的关系(B7和B6),最终建立不同调查问题之间的合理约束条件。
步骤二:描述性统计分析:
- 比较差异:绘制不同品牌服务满意度小提琴图,根据Wilcox统计量和Kruskal-Wallis统计量,比较不同汽车品牌满意度之间的差异
-
2.1问题二题目
研究哪些因素可能对不同品牌电动车的销售有影响?
电动车本身的因素
-
2.2问题二分析
1.因素的特征选取:基于惩罚项(LR、LASSO、SVM)和基于树模型(RF、LightGBM)两种不同的嵌入法分别进行特征选取
2.求出与品牌销售的相关性:利用模型进行机器学习后,对选出的特征采用投票法
变量类型:类别指标和数值指标 数值指标:Point-Biserial相关分析法
- 类别指标:卡方检验
3.1问题三题目
- 建立不同品牌电动汽车的客户挖掘模型
- 评价模型的优良性
-
3.2问题三分析
1.数据预处理:通过SMOTE采样解决标签不平衡问题/正负样本均衡化
2.对不同汽车品牌分别建立XGboost、LightGBM、Catboost、随机森林模型/
多层感知机(BP神经网络)
3.模型指标:F1-score和AUC衡量训练效果
4.优化:网格搜索进行超参数调参4.1问题四
4.2问题四分析
1.多目标规划模型:
目标: 提高体验满意度的服务难度尽量小?
- 选择提高服务的数量尽可能少
- 目标客户购买概率提升的百分比尽可能大
优化方法: