2.获取数据源

2.1 导入外部数据

导入外部数据主要用到Pands里的read_x()方法,x表示待导入文件的格式。

2.1.1 导入excel文件

使用read_excel()方法

因为电脑中的默认路径使用\,这个时候需要在路径前面加一个r(转义符),避免路径里的\被转义。

  1. import pandas as pd
  2. df = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx")
  3. df

2.获取数据源 - 图1

xlsx格式的文件可以有多个Sheet,可以通过设定sheet_name参数来指定要导入哪个Sheet文件。

  1. pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",sheet_name = "Sheet1")

除了可以指定具体Sheet的名字,还可以传入Sheet的顺序,从0开始计数。

  1. pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",sheet_name = 0)

指定行索引

将本地文件导入DataFrame时,行索引使用的从0开始的默认索引,可以通过设置index_col参数来设置。index_col表示用xlsx文件中的第几列做行索引,从0开始计数。

  1. df2 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",index_col = 0)
  2. df2

2.获取数据源 - 图2

指定列索引

将本地文件导入DataFrame时,默认使用源数据表的第一行作为列索引,可以通过设置header参数来设置列索引。即第一行作为列索引,也可以是其他行,只需要传入具体哪一行即可,也可以使用默认从0开始的数作为列索引。

使

  1. #使用第一行作为列索引
  2. df3 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = 0)
  3. df3
  4. #使用第二行作为列索引
  5. df4 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = 1)
  6. df4
  7. #使用默认从0开始的数作为列索引
  8. df5 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = None)
  9. df5

运行后,结果依次如图:

2.获取数据源 - 图3

2.获取数据源 - 图4

2.获取数据源 - 图5

指定导入列

有时候本地文件的列数太多,我们通过设定usecols参数来指定要导入的列。可以传入多个值,表示要传入哪些列。

  1. df6 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",usecols = [0,3])
  2. df6

2.获取数据源 - 图6

2.1.2 导入csv文件

使用read_csvl()方法

指明分隔符号

read_csvl()默认文件中的数据都是以逗号分开的,但是有的文件表示以逗号分开的,这个时候就需要使用sep参数指定分隔符号。

新建一个以-作为分隔符号的文件,如下所示:

2.获取数据源 - 图7

  1. df7 = pd.read_csv(r"D:\Code\Pandas\Basic\excel.csv",sep = "-")
  2. df7

2.获取数据源 - 图8

指明读取行数

设置nrows参数即可

指定编码格式

设置encoding参数即可,如果是csv UTF-8(逗号分割)(*.csv)格式的文件,需要加encoding=“utf-8”,也可以不加该参数,因为python默认的编码格式就是utf-8。

如果是csv(逗号分割)(*.csv)格式的文件,需要加encoding=“gbk”。

当路径或者文件名中包含中文时,如果还用上面的导入方式就会出错。这个时候就需要设置engine参数来消除这个错误。

如果是csv UTF-8(逗号分割)(*.csv)格式的文件,需要加engine=“utf-8-sig”。

如果是csv(逗号分割)(*.csv)格式的文件,需要加engine=“gbk”。

涉及行、列索引设置及制定导入某几列,设置方法与xlsx文件一致。

2.1.3 导入txt文件

使用read_table()方法

read_table()是将利用分隔符分开的文件导入DataFrame的通用函数,它不仅可以导入txt文件,还可以导入csv文件。与read_csv()不同的是,即使是逗号分隔的文件也需要用sep指明分隔符号。

其他参数用法与read_csv()基本一致。

2.2 熟悉数据

2.2.1 利用head预览前几行

head()方法,括号内输入要展示的行数即可。

2.2.2 利用shape获取数据表的大小

shape()方法,shape方法会以元组的形式返回行、列数。需要注意的是,Pyrhon中利用shape()方法获取行数和列数时不会把行索引和列索引计算在内。

2.2.3 利用info()方法查看数据表中的数据类型

在Python中我们可以利用info()方法查看数据表中的数据类型,而且不需要一列一列查看,在调用info()方法以后就会输出整个表中所有列的数据类型。

2.2.4 利用describe获取数值分布情况

利用describe()方法可以掌握数值的分布情况,即均值是多少,最值是多少,方差及分位数分别又是多少。