《对比 Excel ，...》第四章：获取数据源 - 《数据分析 - 阅读笔记》

导入 Excel 文件
导入 CSV 文件
导入 txt 文件
导入 SQL 文件
常用函数

导入 Excel 文件

# 实例
import pandas as pd
df = pd.read_excel(r"test.xlsx", sheet_name = 0, header = 0)
df
# header : 设置索引列
# index_col : 设置索引行
# sheet_name : 指定打开工作表
# usecols : 指定导入列

导入 CSV 文件

# 实例
df = pd.read_csv(r"test.csv", sep= ",", nrows=2, encoding='utf-8')
df
# sep: 设置分隔符
# nrows: 读取行数
# encoding: 确定文件解码表
# engine: 当文件路径中有中文时，需要把 engine 设置为“python”
# header : 设置索引列
# index_col : 设置索引行
# usecols : 指定导入列

导入 txt 文件

# 实例
df = pd.read_table("test.txt", sep=",", encoding='utf-8')
df

导入 SQL 文件

# 安装包 pymysql：pip intsall pymysql
# Python 连接数据库
# 利用 Python 执行 SQL 查询语句
import pymysql
# 连接数据库
eng = pymysql.connect(host = 'localhost',
                     user = 'user',
                     password = 'password',
                     db = 'db',
                     charset = 'utf8')
# host ：数据库地址，本机默认是 localhost
# user ：用户名
# passwor ：用户密码
# db ： 数据库名
# charset ：解码格式
# 指明查询语句
sql = 'SELECT * FROM TableName'
df = pd.read_sql(sql, eng)
df

常用函数

# 预览前 n 行
df.head(n=10)
# 获取数据表的大小，即几行几列
df.shape
# 获取数据类型
df.info()
# 获取数值分布情况，即基本统计信息
df.describe()
# 统计非 NaN 的个数
df.count()
# 获取列名
df.columns
# 按索引排序
df.sort_index()
# 按某列的值排序
df.sort_values(by = '年龄')

df.rank(ascending=False, method='max')
# ascending ： 是否降序进行排名
# method ：可选参数有 average min max first
# average ：平均排名
# min ：同一个数排名最小值排序
# max ：同一个数排名最大值排序
# first ：同一个数排名第一次出现的位置排序