问题一:

  • 相关性分析:典型相关分析—>计算典型相关系数—>显著性检验(指标两两之间)
  • 斯皮尔曼相关系数
  • 每一个指标组合成一个二维点(画图),得到各个指标的线性方程

变量不符合正态分布,故选择斯皮尔曼

  • 拉伊达方法(非等置信概率)剔除异常值。如果测量值与平均值只差大于标准偏差的三倍,则予以剔除—>加权移动平均

    问题二:

  1. 建立评分模型:
  • 基于评分数据和总分数据增长率的得分模型:主成分分析法—>计算各个主成分的贡献率选出主成分个数??加权求和
  • 多属性决策排序模型:各指标评分的进步幅度(各指标、总得分、总得分排名变化)、局部均衡分析理论研究均衡发展应付出的代价、数据包络分析定量评价帮扶难度不同对帮扶效率的影响—>因子分析法降维处理
  • Topsis模型(熵权法):五个指标的平均相对增长量
  1. 排名:
  • 综合得分排名前列的帮扶单位统计每种类型所占的比例
  • 单因素方差分析以及非参数方法Jonckheere-Terpstra单侧检验

    问题三:

  • 每个指标增长率求平均值—>排序

  • 帮扶业绩评价体系:各个指标的排名变化和帮扶工作的难度系数—>BCG矩阵对体系的评价标准进行解释—>业绩评定指标的变异系数确定各指标权重—>Topsis法
  • 二维数据k-means聚类找到指标的聚类中心点

    问题四:

  • 神经网络算法—>预测出2020年的总分数据

  • XGBooT模型和随机森林模型—>预测出2020年的缺失值—>单层神经网络做LinearRegression预测总分缺失值
  • Logistic回归模型:五个指标的相对增量为自变量—>先进村庄(1)和其余(0)—>利用混淆矩阵和ROC曲线等评价指标进行评价—>运用结论和帮扶单位类型和编号进行类比求均值