Pandas处理什么样的数据?

  • 开始使用前首先import pandas as pd
  • pd为库别名,可以用其他的,但是一般约定熟成用pd``
  • 这一部分要弄清楚pandas的两个数据结构:Series(一维)和DataFrame(二维)

In [1]: import pandas as pd

  • 要加载pandas程序包并开始使用它,请导入该程序包。社区同意的熊猫别名为pd,因此按pd所有熊猫文档的标准做法加载熊猫。

    大熊猫数据表格表示

    Panda入门 - 图1

  • 我想存储泰坦尼克号的乘客数据。对于许多乘客,我知道姓名(字符),年龄(标志)和性别(男性/女性)数据。

In [2]: df = pd.DataFrame({
…: “Name”: [“Braund, Mr. Owen Harris”,
…: “Allen, Mr. William Henry”,
…: “Bonnell, Miss. Elizabeth”],
…: “Age”: [22, 35, 58],
…: “Sex”: [“male”, “male”, “female”]}
…: )
…:

In [3]: df
Out[3]:
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female

  • 要将数据手动存储在表中,请创建一个DataFrame。使用Python的列表字典时,字典键将用作列标题,而每个列表中的值将用作的列DataFrame

A DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符,整数,浮点值,分类数据等)。它类似于电子表格,SQL表或data.frameinR。

  • 该表有3列,每列都有一个列标签。列标签分别NameAgeSex
  • 该列Name由文本数据组成,每个值都是一个字符串,该列Age是数字,该列Sex是文本数据。

在电子表格软件中,我们数据的表表示看起来非常相似:
Panda入门 - 图2

a中的每一列DataFrame都是一个Series

Panda入门 - 图3

  • 我只是对使用列中的数据感兴趣 Age

In [4]: df[“Age”]
Out[4]:
0 22
1 35
2 58
Name: Age, dtype: int64

  • 选择熊猫的单个列时DataFrame,结果是熊猫Series。要选择列,请在方括号之间使用列标签[]

注意
如果您熟悉Python 字典,则单列的选择与基于键的字典值的选择非常相似。
您也可以Series从头开始创建:
In [5]: ages = pd.Series([22, 35, 58], name=”Age”)

In [6]: ages
Out[6]:
0 22
1 35
2 58
Name: Age, dtype: int64
熊猫Series没有列标签,因为它只是的单列DataFrame。系列确实具有行标签。

使用DataFrame或Series进行某些操作

  • 我想知道乘客的最大年龄
    我们可以DataFrame通过选择Age列并应用来执行此操作max()

In [7]: df[“Age”].max()
Out[7]: 58

  • Series

In [8]: ages.max()
Out[8]: 58
如图示的max()方法,你可以一个事情 DataFrameSeries。大熊猫提供了很多功能的,他们每个人的方法,你可以申请到一个DataFrameSeries。由于方法是函数,所以请不要忘记使用括号()

  • 我对数据表中数值数据的一些基本统计信息感兴趣

In [9]: df.describe()
Out[9]:
Age
count 3.000000
mean 38.333333
std 18.230012
min 22.000000
25% 28.500000
50% 35.000000
75% 46.500000
max 58.000000

  • describe()方法提供了对数值数据的快速概述DataFrame。由于NameSex列是文本数据,因此默认情况下该describe()方法不考虑这些数据。

许多熊猫操作返回a DataFrame或a Series。该 describe()方法是熊猫操作返回熊猫的示例Series
到用户指南
describe在用户指南部分中有关聚合的更多选项,请参见describe
注意
这仅仅是一个起点。类似于电子表格软件,大熊猫将数据表示为具有列和行的表。除了表示形式外,熊猫还支持您在电子表格软件中进行的数据操作和计算。继续阅读下一个教程以开始使用!

记得

  • 导入包,又名 import pandas as pd
  • 数据表存储为大熊猫 DataFrame
  • a中的每一列DataFrame都是一个Series
  • 您可以通过将方法应用于DataFrameSeries