• 数据处理
  • 建立在numpy的基础之上
  • 支持更丰富的函数
  • Anaconda已默认安装

    读取

    image.png
    DataFrame为核心结构
    字符类型为object

    部分显示

    image.png

  • 支持部分显示头几行、尾几行

  • 显示列名
  • 显示维度

    索引

    image.png
    image.png
    image.png
    image.png
    image.png

  • 把当前所有列名做成一个list

  • 定义一个空向量
  • 在list中检索以(g)结尾的词,并添加在空向量中
  • 索引表中以向量中的词为列名的列
  • 打印前三行

    数据类型

    image.png

    计算

    image.png
    image.png

    插入新列

    image.png

    最大值

    image.png

    排序

    image.png

    泰坦尼克号案例

    image.png

    预处理缺失值

  • 缺失值导入后显示为NaN

  • 检索缺失值并求个数

image.png

  • 如果不处理缺失值会影响计算

image.png

  • 不让缺失值参与计算

image.png

  • 但是也可以直接使用平均值函数

image.png

  • 丢掉缺失值

image.png

分类平均

image.png

  • 另一种求平均的方法(构建透视表)

image.png
image.png

  • 方法缺省为求均值

    透视表

    image.png

    查看指定样本

    image.png

    重置排序

    image.png

    自定义函数

    image.png

  • 相当于用变量的apply方法注册自己的函数

image.png
image.png

  • 实现离散化

image.png
image.png