Pandas处理什么样的数据?
- 开始使用前首先import pandas as pd
- pd为库别名,可以用其他的,但是一般约定熟成用pd``
- 这一部分要弄清楚pandas的两个数据结构:Series(一维)和DataFrame(二维)
In [1]: import pandas as pd
要加载pandas程序包并开始使用它,请导入该程序包。社区同意的熊猫别名为
pd,因此按pd所有熊猫文档的标准做法加载熊猫。大熊猫数据表格表示
我想存储泰坦尼克号的乘客数据。对于许多乘客,我知道姓名(字符),年龄(标志)和性别(男性/女性)数据。
In [2]: df = pd.DataFrame({
…: “Name”: [“Braund, Mr. Owen Harris”,
…: “Allen, Mr. William Henry”,
…: “Bonnell, Miss. Elizabeth”],
…: “Age”: [22, 35, 58],
…: “Sex”: [“male”, “male”, “female”]}
…: )
…:
In [3]: df
Out[3]:
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female
- 要将数据手动存储在表中,请创建一个
DataFrame。使用Python的列表字典时,字典键将用作列标题,而每个列表中的值将用作的列DataFrame。
A DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符,整数,浮点值,分类数据等)。它类似于电子表格,SQL表或data.frameinR。
- 该表有3列,每列都有一个列标签。列标签分别
Name是Age和Sex。 - 该列
Name由文本数据组成,每个值都是一个字符串,该列Age是数字,该列Sex是文本数据。
a中的每一列DataFrame都是一个Series
- 我只是对使用列中的数据感兴趣
Age
In [4]: df[“Age”]
Out[4]:
0 22
1 35
2 58
Name: Age, dtype: int64
注意
如果您熟悉Python 字典,则单列的选择与基于键的字典值的选择非常相似。
您也可以Series从头开始创建:
In [5]: ages = pd.Series([22, 35, 58], name=”Age”)
In [6]: ages
Out[6]:
0 22
1 35
2 58
Name: Age, dtype: int64
熊猫Series没有列标签,因为它只是的单列DataFrame。系列确实具有行标签。
使用DataFrame或Series进行某些操作
- 我想知道乘客的最大年龄
我们可以DataFrame通过选择Age列并应用来执行此操作max():
In [7]: df[“Age”].max()
Out[7]: 58
- 或
Series:
In [8]: ages.max()
Out[8]: 58
如图示的max()方法,你可以做一个事情 DataFrame或Series。大熊猫提供了很多功能的,他们每个人的方法,你可以申请到一个DataFrame或Series。由于方法是函数,所以请不要忘记使用括号()。
- 我对数据表中数值数据的一些基本统计信息感兴趣
In [9]: df.describe()
Out[9]:
Age
count 3.000000
mean 38.333333
std 18.230012
min 22.000000
25% 28.500000
50% 35.000000
75% 46.500000
max 58.000000
- 该
describe()方法提供了对数值数据的快速概述DataFrame。由于Name和Sex列是文本数据,因此默认情况下该describe()方法不考虑这些数据。
许多熊猫操作返回a DataFrame或a Series。该 describe()方法是熊猫操作返回熊猫的示例Series。
到用户指南describe在用户指南部分中有关聚合的更多选项,请参见describe
注意
这仅仅是一个起点。类似于电子表格软件,大熊猫将数据表示为具有列和行的表。除了表示形式外,熊猫还支持您在电子表格软件中进行的数据操作和计算。继续阅读下一个教程以开始使用!
记得
- 导入包,又名
import pandas as pd - 数据表存储为大熊猫
DataFrame - a中的每一列
DataFrame都是一个Series - 您可以通过将方法应用于
DataFrame或Series
