导入 Excel 文件
# 实例import pandas as pddf = pd.read_excel(r"test.xlsx", sheet_name = 0, header = 0)df# header : 设置索引列# index_col : 设置索引行# sheet_name : 指定打开工作表# usecols : 指定导入列
导入 CSV 文件
# 实例df = pd.read_csv(r"test.csv", sep= ",", nrows=2, encoding='utf-8')df# sep: 设置分隔符# nrows: 读取行数# encoding: 确定文件解码表# engine: 当文件路径中有中文时,需要把 engine 设置为“python”# header : 设置索引列# index_col : 设置索引行# usecols : 指定导入列
导入 txt 文件
# 实例df = pd.read_table("test.txt", sep=",", encoding='utf-8')df
导入 SQL 文件
# 安装包 pymysql:pip intsall pymysql# Python 连接数据库# 利用 Python 执行 SQL 查询语句import pymysql# 连接数据库eng = pymysql.connect(host = 'localhost', user = 'user', password = 'password', db = 'db', charset = 'utf8')# host :数据库地址,本机默认是 localhost# user :用户名# passwor :用户密码# db : 数据库名# charset :解码格式# 指明查询语句sql = 'SELECT * FROM TableName'df = pd.read_sql(sql, eng)df
常用函数
# 预览前 n 行df.head(n=10)# 获取数据表的大小,即几行几列df.shape# 获取数据类型df.info()# 获取数值分布情况,即基本统计信息df.describe()# 统计非 NaN 的个数df.count()# 获取列名df.columns# 按索引排序df.sort_index()# 按某列的值排序df.sort_values(by = '年龄')
df.rank(ascending=False, method='max')# ascending : 是否降序进行排名# method :可选参数有 average min max first# average :平均排名# min :同一个数排名最小值排序# max :同一个数排名最大值排序# first :同一个数排名第一次出现的位置排序