思维导图

day05总结.png

字符串离散化进行统计

  • 获取分类去重后的列表
  • 构造全为0的DataFrame,形状是(数据的行数,分类列表的长度),列索引是分类去重后的列表
  • 遍历原始数据,对全为0的df赋值
    • zeros_df.loc[i,[“T”,”M”]] = 1
  • 按列进行求和

    join

  • 按照行索引进行合并

    merge

  • 按照某一列进行和并

    1. [
    2. [1,2,3],
    3. [4,5,6]
    4. ]
    5. [
    6. [10,2,31],
    7. [43,52,62]
    8. ]
    9. ret: 左连接
    10. [
    11. [1,2,3,10,2,31],
    12. [4,5,6,nan,nan,nan]
    13. ]
    14. ret: 内连接
    15. [
    16. [1,2,3,10,2,31]
    17. ]
    18. ret: 外连接
    19. [
    20. [1,2,3,10,2,31]
    21. [4,5,6nan,nan,nan]
    22. [nan,nan,nan,43,52,62]
    23. ]
    24. ret: 右连接
    25. [
    26. [1,2,3,10,2,31]
    27. [nan,nan,nan,43,52,62]
    28. ]

    数据的分组和聚合

  • groupby(by=””).count()

  • groupby(by=[“”,””]).count() —->返回复合索引的df
  • 可迭代

    索引的相关知识点

  • df.index

  • df.index = []
  • df.set_index(“a”) #把某一列作为索引
  • df.set_index([“a”,”b”]) #把某几列作为索引
  • series
    • s1["a"]["b"]
    • s1["a","b"]
  • DataFrame
    • df.loc["a"].loc["b"]
  • 从内层开始选择
    • df.swaplevel()