数据压缩

  • 使用压缩使数据占用较少内存空间
  • 提升计算速度

image.png

  • 特征数较对就会带来特征冗余的问题
  • 两个特征高度相关
  • 由于英寸和厘米之间的换算存在四舍五入,导致不在一条直线上

image.png

  • 将投影上的值作为新的特征值
  • 这是一种对原数据集的近似
  • 实现2D-1D的降维

image.png

  • 三维中的点近似在同一个平面上
  • 将空间中的点投影在那个平面上,平面的两个轴方向是新的特征值

    可视化数据

    image.png

  • 大规模数据集

image.png

  • 将一个数据集想办法降到2维即可实现可视化
  • 特征z可能已经没有了十分明确的物理含义,但需要知道大致意味着什么

image.png