tags: [笔记, Pandas]
categories: [笔记, Pandas]
简要介绍
1、2008年WesMcKinney开发出的库 2、专门用于数据挖掘的开源python库 3、以Numpy为基础,借力Numpy模块在计算方面性能高的优势 4、基于matplotlib,能够简便的画图 5、独特的数据结构
内容整理自 https://mp.weixin.qq.com/s/5YIz-aXy18289JQH9agNiQ
1、Pandas优势
(1)增强图表可读性
(2)便捷的数据处理能力
(3)读取文件方便
(4)封装了Matplotlib、Numpy的画图和计算
2、Pandas数据结构
Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。
其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。
三种数据结构对应有自己的创建方式、属性以及相应操作
1、通过已有数据创建:(1)指定内容(list、ndarray),默认索引(2)指定内容和索引(3)通过字典数据创建
2、属性一般包括:
Series:(1)index(2)values;
DataFrame:(1)shape(2)行索引,表明不同行,横向索引,叫index,0轴,axis=0(3)列索引,表名不同列,纵向索引,叫columns,1轴,axis=1(4)values(5)T 转置(6)head(5) 显示前5行内容(7)tail(5) 显示后5行内容
3、相应操作
DataFrame索引的设置:(1)修改行列索引值(2)重设索引(3)以某列值设置为新的索引
MultiIndex:MultiIndex是三维的数据结构;多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame对象上拥有2个以及2个以上的索引。
3、基本数据操作
1.索引[掌握]
- 直接索引—先列后行,是需要通过索引的字符串进行获取
- loc ——先行后列,是需要通过索引的字符串进行获取
- iloc——先行后列,是通过下标进行索引
- ix——先行后列,可以用上面两种方法混合进行索引
2.赋值[知道]
- data[“”]= **
- data. =
3.排序[知道]