导入 Excel 文件

  1. # 实例
  2. import pandas as pd
  3. df = pd.read_excel(r"test.xlsx", sheet_name = 0, header = 0)
  4. df
  5. # header : 设置索引列
  6. # index_col : 设置索引行
  7. # sheet_name : 指定打开工作表
  8. # usecols : 指定导入列

导入 CSV 文件

  1. # 实例
  2. df = pd.read_csv(r"test.csv", sep= ",", nrows=2, encoding='utf-8')
  3. df
  4. # sep: 设置分隔符
  5. # nrows: 读取行数
  6. # encoding: 确定文件解码表
  7. # engine: 当文件路径中有中文时,需要把 engine 设置为“python”
  8. # header : 设置索引列
  9. # index_col : 设置索引行
  10. # usecols : 指定导入列

导入 txt 文件

  1. # 实例
  2. df = pd.read_table("test.txt", sep=",", encoding='utf-8')
  3. df

导入 SQL 文件

  1. # 安装包 pymysql:pip intsall pymysql
  2. # Python 连接数据库
  3. # 利用 Python 执行 SQL 查询语句
  4. import pymysql
  5. # 连接数据库
  6. eng = pymysql.connect(host = 'localhost',
  7. user = 'user',
  8. password = 'password',
  9. db = 'db',
  10. charset = 'utf8')
  11. # host :数据库地址,本机默认是 localhost
  12. # user :用户名
  13. # passwor :用户密码
  14. # db : 数据库名
  15. # charset :解码格式
  16. # 指明查询语句
  17. sql = 'SELECT * FROM TableName'
  18. df = pd.read_sql(sql, eng)
  19. df

常用函数

  1. # 预览前 n 行
  2. df.head(n=10)
  3. # 获取数据表的大小,即几行几列
  4. df.shape
  5. # 获取数据类型
  6. df.info()
  7. # 获取数值分布情况,即基本统计信息
  8. df.describe()
  9. # 统计非 NaN 的个数
  10. df.count()
  11. # 获取列名
  12. df.columns
  13. # 按索引排序
  14. df.sort_index()
  15. # 按某列的值排序
  16. df.sort_values(by = '年龄')
  1. df.rank(ascending=False, method='max')
  2. # ascending : 是否降序进行排名
  3. # method :可选参数有 average min max first
  4. # average :平均排名
  5. # min :同一个数排名最小值排序
  6. # max :同一个数排名最大值排序
  7. # first :同一个数排名第一次出现的位置排序