该模块下的功能似乎都是获取所定义的Series的属性配置。
16个功能,一个Series有那些是比较需要注意的配置属性呢?或者说,那些配置信息更有价值。
比较有用:1,2,8,11, 有些用:10
index(1): 在pandas中有索引对象,该对象中包含了许多方法以便对索引进行使用。说明索引在pandas中地位不低,在后期的使用中应该是会遇到的比较多的。
index = [1,2,3,4,5]indexi = ['A','B','C','D','E']pdindex = pd.Series(data=index,index=indexi,dtype=int)print(pdindex)print(pdindex.index)print(len(pdindex.index))
array(2):将Series的返回结果转变成数组的形式,pandas中也有专门的对象来进行数组的处理,以及引用,扩展了numpy库,在后面使用到pandas数组时可以一同比照numpy来进行操作。
index = ['a','b','c']pdindex = pd.Series(data=index,dtype=str)#转化为了数组后,带有了切片的功能。print(pdindex.array[0:1])print(type(pdindex.array))print(pd.Series(pdindex.array))
values(3):这个功能感觉较为多余,pandas也推荐使用array,或to_numpy来替代。这个功能返回一个numpy.ndarray或ndarray-like,这样的话要么就是获得了一个numpy的对象持有,要么就是pandas内部其它数组的对象持有。似乎使用的必要性不大。
dtype(4):这个功能返回基础数据类型对象,一般情况下应该意义不大。
index = ['a','b','c']pdindex = pd.Series(data=index,dtype=str)print(pdindex.dtype)#下面比较令我感兴趣的是为什么最终返回的是numpy.dtype,难道Series是直接调用的numpy?print(type(pdindex.dtype))print(type(pd.Series([1,2]).dtype))
shape(5):将基础数据转变为元组,比较不解的是,转变完后无法在获取数组值了,也没有什么有效的配置方法,该功能比较鸡肋。
nbytes(6):返回字节数,价值比重感觉靠后。
ndim(7):返回基础数据维度数,比较鸡肋的感觉。
size(8):返回基础数据元素数,有一些用处,可以查看获取的数据集的数据量。
index = [[1],[2,2],3]pdindex = pd.Series(data=index,dtype=str)print(pdindex.size)
T(9):说是按定义转置矩阵,但使用后好像没什么反应,不清楚是否还有其它定义方式来设置。
index = [1,2,3]pdindex = pd.Series(data=index,dtype=str)print(pdindex)print('------------------------------')print(pdindex.T)
memory_usage(10):返回使用的比特内存数,这个方法带有两个参数:index( 是否包含索引的使用内存 ),deep(深度的查询系统内存消耗)。
index = [1,2,3]pdindex = pd.Series(data=index,dtype=str)print(pdindex.memory_usage())print(pdindex.memory_usage(index=False))print(pdindex.memory_usage(deep=True))
hasnans(11):如果有NAN数据,则返回为True, 否则返回false。可以用于数据预处理。
import pandas as pdimport numpy as npindex = [1,2,3]pdindex = pd.Series(data=index,dtype=str)print(pdindex.hasnans)index = [1,2,np.nan]pdindex = pd.Series(data=index)print(pdindex.hasnans)
empty(12):检测是否有数据,如果数据仅为NAN,那么也认为是非空。
import pandas as pdimport numpy as npindex = [1,2,3]pdindex = pd.Series(data=index,dtype=object)print(pdindex.empty)index = [np.nan]pdindex = pd.Series(data=index,dtype=object)print(pdindex.empty)index = []pdindex = pd.Series(data=index,dtype=object)print(pdindex.empty)
dtypes(13):感觉和dtype差不多,目前没发现什么特别的用处。
index = [1,2,3]pdindex = pd.Series(data=index,dtype=object)print(pdindex.dtypes)print(pdindex.dtype)pdindex = pd.Series(data=index)print(pdindex.dtypes)print(pdindex.dtype)
name(14):返回Series的名称
index = [1,2,3]pdindex = pd.Series(data=index)print(pdindex.name)pdindex = pd.Series(data=index,name='a')print(pdindex.name)
flags(15),set_flags(16):这两个暂时不做讨论。
