2.2 Pandas - 2.2.3 读取从CSV文件 - 《数据分析》

import pandas as pd
# pd.read_csv 加载数据
# 同一文件夹下，不需要路径
# csv文件保存为utf格式，以‘,’为分隔。
- pd.read_csv('DataAnalyst.csv')
- pd.read_csv('DataAnalyst.csv',encoding='gbk')
- pd.read_csv('DataAnalyst.csv',encoding='gbk',sep='\t',names=list('abcdefg'))；以\t解析；names更改字段名（列名）
pd.read_csv('DataAnalyst.csv')
df=pd.read_csv('DataAnalyst.csv')
df
df.info()
- df.head()默认切五行；df.head(20)切到19
- df.tail()尾部开始，默认切五行
df.head()
- df.top.astype('str')，top内容变为字符串，但df没变；只有df.top = df.top.astype('str')，df才会彻底改了
df.top = df.top.astype('str')
df.top = df.top.astype('int64')
- 取值：df[['city','bottom']]、df[['bottom','top']]
- 计算：df['avg_2'] = (df.bottom + df.top)/2
- 练练：ix,loc,iloc
df['avg_2'] = (df.bottom + df.top)/2
df.avg_2
- df.query('avg>15')， query过滤查询之后生成一个新数据框
- df.query('avg>15').city
- df.query('avg>15').city == '北京'
- df[df.query('avg>15').city == '北京']   --- No：bool的数组和index不匹配；内部索引和外部不匹配（新数据框和旧数据框索引数量不同）；内部的切片和外部的数据框，两者的index要能完整的对应上
- df[(df.city == '上海') & (df.avg > 15)] --- Yes：合并的布尔数组