tags: [笔记, Pandas]
categories: [笔记, Pandas]


简要介绍

1、2008年WesMcKinney开发出的库 2、专门用于数据挖掘的开源python库 3、以Numpy为基础,借力Numpy模块在计算方面性能高的优势 4、基于matplotlib,能够简便的画图 5、独特的数据结构
内容整理自 https://mp.weixin.qq.com/s/5YIz-aXy18289JQH9agNiQ

1、Pandas优势

(1)增强图表可读性
(2)便捷的数据处理能力
(3)读取文件方便
(4)封装了Matplotlib、Numpy的画图和计算

2、Pandas数据结构

Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。

其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。

三种数据结构对应有自己的创建方式、属性以及相应操作
1、通过已有数据创建:(1)指定内容(list、ndarray),默认索引(2)指定内容和索引(3)通过字典数据创建

2、属性一般包括:
Series:(1)index(2)values;
DataFrame:(1)shape(2)行索引,表明不同行,横向索引,叫index,0轴,axis=0(3)列索引,表名不同列,纵向索引,叫columns,1轴,axis=1(4)values(5)T 转置(6)head(5) 显示前5行内容(7)tail(5) 显示后5行内容

3、相应操作
DataFrame索引的设置:(1)修改行列索引值(2)重设索引(3)以某列值设置为新的索引

MultiIndex:MultiIndex是三维的数据结构;多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

3、基本数据操作

1.索引[掌握]

  • 直接索引—先列后行,是需要通过索引的字符串进行获取
  • loc ——先行后列,是需要通过索引的字符串进行获取
  • iloc——先行后列,是通过下标进行索引
  • ix——先行后列,可以用上面两种方法混合进行索引

2.赋值[知道]

  • data[“”]= **
  • data. =

3.排序[知道]

  • dataframe
    • 对象.sort_ _values()
    • 对象.sort _index()
  • series
    • 对象sort_ _values()
    • 对象.sort_ index()

      4、DataFrame运算