2.获取数据源
2.1 导入外部数据
导入外部数据主要用到Pands里的read_x()方法,x表示待导入文件的格式。
2.1.1 导入excel文件
使用read_excel()方法
因为电脑中的默认路径使用\,这个时候需要在路径前面加一个r(转义符),避免路径里的\被转义。
import pandas as pddf = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx")df

xlsx格式的文件可以有多个Sheet,可以通过设定sheet_name参数来指定要导入哪个Sheet文件。
pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",sheet_name = "Sheet1")
除了可以指定具体Sheet的名字,还可以传入Sheet的顺序,从0开始计数。
pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",sheet_name = 0)
指定行索引
将本地文件导入DataFrame时,行索引使用的从0开始的默认索引,可以通过设置index_col参数来设置。index_col表示用xlsx文件中的第几列做行索引,从0开始计数。
df2 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",index_col = 0)df2

指定列索引
将本地文件导入DataFrame时,默认使用源数据表的第一行作为列索引,可以通过设置header参数来设置列索引。即第一行作为列索引,也可以是其他行,只需要传入具体哪一行即可,也可以使用默认从0开始的数作为列索引。
使
#使用第一行作为列索引df3 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = 0)df3#使用第二行作为列索引df4 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = 1)df4#使用默认从0开始的数作为列索引df5 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",header = None)df5
运行后,结果依次如图:



指定导入列
有时候本地文件的列数太多,我们通过设定usecols参数来指定要导入的列。可以传入多个值,表示要传入哪些列。
df6 = pd.read_excel(r"D:\Code\Pandas\Basic\excel.xlsx",usecols = [0,3])df6

2.1.2 导入csv文件
使用read_csvl()方法
指明分隔符号
read_csvl()默认文件中的数据都是以逗号分开的,但是有的文件表示以逗号分开的,这个时候就需要使用sep参数指定分隔符号。
新建一个以-作为分隔符号的文件,如下所示:

df7 = pd.read_csv(r"D:\Code\Pandas\Basic\excel.csv",sep = "-")df7

指明读取行数
设置nrows参数即可
指定编码格式
设置encoding参数即可,如果是csv UTF-8(逗号分割)(*.csv)格式的文件,需要加encoding=“utf-8”,也可以不加该参数,因为python默认的编码格式就是utf-8。
如果是csv(逗号分割)(*.csv)格式的文件,需要加encoding=“gbk”。
当路径或者文件名中包含中文时,如果还用上面的导入方式就会出错。这个时候就需要设置engine参数来消除这个错误。
如果是csv UTF-8(逗号分割)(*.csv)格式的文件,需要加engine=“utf-8-sig”。
如果是csv(逗号分割)(*.csv)格式的文件,需要加engine=“gbk”。
涉及行、列索引设置及制定导入某几列,设置方法与xlsx文件一致。
2.1.3 导入txt文件
使用read_table()方法
read_table()是将利用分隔符分开的文件导入DataFrame的通用函数,它不仅可以导入txt文件,还可以导入csv文件。与read_csv()不同的是,即使是逗号分隔的文件也需要用sep指明分隔符号。
其他参数用法与read_csv()基本一致。
2.2 熟悉数据
2.2.1 利用head预览前几行
head()方法,括号内输入要展示的行数即可。
2.2.2 利用shape获取数据表的大小
shape()方法,shape方法会以元组的形式返回行、列数。需要注意的是,Pyrhon中利用shape()方法获取行数和列数时不会把行索引和列索引计算在内。
2.2.3 利用info()方法查看数据表中的数据类型
在Python中我们可以利用info()方法查看数据表中的数据类型,而且不需要一列一列查看,在调用info()方法以后就会输出整个表中所有列的数据类型。
2.2.4 利用describe获取数值分布情况
利用describe()方法可以掌握数值的分布情况,即均值是多少,最值是多少,方差及分位数分别又是多少。
