介绍

Maps允许我们一次把DataFrame 或 Series中的一列数据转换为一个值。但是，通常我们希望对数据进行分组，然后对数据所在的组执行特定的操作。

正如您将了解到的，我们使用 groupby() 函数来完成这个操作。本节我们还将讨论一些例如更复杂的 DataFrames 索引方法，以及如何对数据排序等其他主题。

分组分析

到目前为止，我们一直在大量使用的一个函数是 value_counts() 函数。我们可以通过执行以下操作完成value_counts() 函数所实现的功能：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
print(reviews.groupby('points').points.count())

points
80       397
81       692
82      1836
83      3025
84      6480
85      9530
86     12600
87     16933
88     17207
89     12226
90     15410
91     11359
92      9613
93      6489
94      3758
95      1535
96       523
97       229
98        77
99        33
100       19
Name: points, dtype: int64

groupby() 先创建一系列reviews的分组，将相同的分值的葡萄酒分配到一组。然后，针对每一个组，我们抓取points() 列并计算葡萄酒品牌出现的次数。value_counts() 是groupby() 操作的一个快捷方式。
我们可以对这些数据使用以前使用过的任何汇总函数。例如，要获得每个评分值组中最便宜的葡萄酒，我们可以执行以下操作：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
print(reviews.groupby('points').price.min())

points
80      5.0
81      5.0
82      4.0
83      4.0
84      4.0
85      4.0
86      4.0
87      5.0
88      6.0
89      7.0
90      8.0
91      7.0
92     11.0
93     12.0
94     13.0
95     20.0
96     20.0
97     35.0
98     50.0
99     44.0
100    80.0
Name: price, dtype: float64

您可以将生成的每个组看成 DataFrame 中的只包括数据与其对应值的一个切片。我们可以直接使用apply() 方法访问这个 DataFrame ，然后我们可以以任何我们认为合适的方式操作数据。例如，下面方法可以从数据集中的每个酒庄中选择评价排名第一的葡萄酒的名称：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
print(reviews.groupby('winery').apply(lambda df: df.title.iloc[0]))

winery
1+1=3                                     1+1=3 NV Rosé Sparkling (Cava)
10 Knots                            10 Knots 2010 Viognier (Paso Robles)
100 Percent Wine              100 Percent Wine 2015 Moscato (California)
1000 Stories           1000 Stories 2013 Bourbon Barrel Aged Zinfande...
1070 Green                  1070 Green 2011 Sauvignon Blanc (Rutherford)
                                             ...                        
Órale                       Órale 2011 Cabronita Red (Santa Ynez Valley)
Öko                    Öko 2013 Made With Organically Grown Grapes Ma...
Ökonomierat Rebholz    Ökonomierat Rebholz 2007 Von Rotliegenden Spät...
àMaurice               àMaurice 2013 Fred Estate Syrah (Walla Walla V...
Štoka                                    Štoka 2009 Izbrani Teran (Kras)
Length: 16757, dtype: object

对于更细粒度的控制，还可以按多个列进行分组。举个例子，下面是如何根据国家和省份挑选最好的葡萄酒：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
print(reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()]))

                              country  ...                winery
country   province                     ...                      
Argentina Mendoza Province  Argentina  ...  Bodega Catena Zapata
          Other             Argentina  ...                Colomé
Armenia   Armenia             Armenia  ...              Van Ardi
Australia Australia Other   Australia  ...       Marquis Philips
          New South Wales   Australia  ...            De Bortoli
...                               ...  ...                   ...
Uruguay   Juanico             Uruguay  ...        Familia Deicas
          Montevideo          Uruguay  ...                 Bouza
          Progreso            Uruguay  ...                Pisano
          San Jose            Uruguay  ...        Castillo Viejo
          Uruguay             Uruguay  ...               Narbona
[425 rows x 13 columns]

另一个值得一提的可用于groupby() 方法是agg()函数，它允许您在 DataFrame 上同时运行一堆不同的函数。例如，下面代码可以生成数据集的简单统计摘要：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
print(reviews.groupby(['country']).price.agg([len, min, max]))

                            len   min     max
country                                      
Argentina                3800.0   4.0   230.0
Armenia                     2.0  14.0    15.0
Australia                2329.0   5.0   850.0
Austria                  3345.0   7.0  1100.0
Bosnia and Herzegovina      2.0  12.0    13.0
Brazil                     52.0  10.0    60.0
Bulgaria                  141.0   8.0   100.0
Canada                    257.0  12.0   120.0
Chile                    4472.0   5.0   400.0
China                       1.0  18.0    18.0
Croatia                    73.0  12.0    65.0
Cyprus                     11.0  11.0    21.0
Czech Republic             12.0  15.0    45.0
Egypt                       1.0   NaN     NaN
England                    74.0  25.0    95.0
France                  22093.0   5.0  3300.0
Georgia                    86.0   9.0    40.0
Germany                  2165.0   5.0   775.0
Greece                    466.0   8.0    79.0
Hungary                   146.0  10.0   764.0
India                       9.0  10.0    20.0
Israel                    505.0   8.0   150.0
Italy                   19540.0   5.0   900.0
Lebanon                    35.0  13.0    75.0
Luxembourg                  6.0  16.0    30.0
Macedonia                  12.0  15.0    20.0
Mexico                     70.0   8.0   108.0
Moldova                    59.0   8.0    42.0
Morocco                    28.0  14.0    40.0
New Zealand              1419.0   7.0   130.0
Peru                       16.0  10.0    68.0
Portugal                 5691.0   5.0  1000.0
Romania                   120.0   4.0   320.0
Serbia                     12.0  15.0    42.0
Slovakia                    1.0  16.0    16.0
Slovenia                   87.0   7.0    90.0
South Africa             1401.0   5.0   330.0
Spain                    6645.0   4.0   770.0
Switzerland                 7.0  21.0   160.0
Turkey                     90.0  14.0   120.0
US                      54504.0   4.0  2013.0
Ukraine                    14.0   6.0    13.0
Uruguay                   109.0  10.0   130.0

有效地使用groupby()方法会允许您对数据集执行许多非常强大的操作。

多索引

到目前为止，在我们看到的所有示例中，我们都使用带有单个标签索引的DataFrame或Series对象。groupby() 稍有不同，根据我们运行的操作不同，它有时会导致所谓的多索引。
多索引不同于常规索引，因为它有多个级别。例如：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
print(countries_reviewed)

                             len
country   province              
Argentina Mendoza Province  3264
          Other              536
Armenia   Armenia              2
Australia Australia Other    245
          New South Wales     85
...                          ...
Uruguay   Juanico             12
          Montevideo          11
          Progreso            11
          San Jose             3
          Uruguay             24
[425 rows x 1 columns]

mi = countries_reviewed.index
print(type(mi))                # <class 'pandas.core.indexes.multi.MultiIndex'>

多索引有一些单索引没有的、能够处理分层结构的方法。它们还需要两个级别的标签来检索值。对于刚接触 pandas的用户来说，处理多索引输出是一个常见的“陷阱””gotcha”。
在pandas文档的multi index/Advanced Selection部分中，将详细介绍多索引的用例以及使用它们的说明。
但是，通常最常用的多索引方法是用于转换回常规索引的方法reset_index() 方法：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
print(countries_reviewed.reset_index())

       country          province   len
0    Argentina  Mendoza Province  3264
1    Argentina             Other   536
2      Armenia           Armenia     2
3    Australia   Australia Other   245
4    Australia   New South Wales    85
..         ...               ...   ...
420    Uruguay           Juanico    12
421    Uruguay        Montevideo    11
422    Uruguay          Progreso    11
423    Uruguay          San Jose     3
424    Uruguay           Uruguay    24
[425 rows x 3 columns]

排序

回头再看一下根据countries_reviewed的结果，我们可以看到分组返回的数据是按索引顺序返回的，而不是按值顺序返回的。也就是说，当输出groupby的结果时，行的顺序取决于索引中的值，而不是数据中的值。
为了得到我们想要的顺序的数据，可以自己排序。sort_values() 方法可以方便的实现这个功能。

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed = countries_reviewed.reset_index()
print(countries_reviewed.sort_values(by='len'))

          country               province    len
179        Greece  Muscat of Kefallonian      1
192        Greece          Sterea Ellada      1
194        Greece                 Thraki      1
354  South Africa             Paardeberg      1
40         Brazil       Serra do Sudeste      1
..            ...                    ...    ...
409            US                 Oregon   5373
227         Italy                Tuscany   5897
118        France               Bordeaux   5941
415            US             Washington   8639
392            US             California  36247
[425 rows x 3 columns]

sort_values() 默认为最低值优先的升序排序。然而，大多数情况下，我们需要一个最高的数字排第一的降序排序，可以用指定参数 ascending=False 的方法实现：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed = countries_reviewed.reset_index()
print(countries_reviewed.sort_values(by='len', ascending=False))

          country         province    len
392            US       California  36247
415            US       Washington   8639
118        France         Bordeaux   5941
227         Italy          Tuscany   5897
409            US           Oregon   5373
..            ...              ...    ...
101       Croatia              Krk      1
247   New Zealand        Gladstone      1
357  South Africa  Piekenierskloof      1
63          Chile          Coelemu      1
149        Greece           Beotia      1
[425 rows x 3 columns]

若要按索引值排序，请使用一个类似的方法sort_index()，此方法与 sort_values() 方法具有相同的参数和默认顺序：

import pandas as pd
reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
print(countries_reviewed.sort_index())

                             len
country   province              
Argentina Mendoza Province  3264
          Other              536
Armenia   Armenia              2
Australia Australia Other    245
          New South Wales     85
...                          ...
Uruguay   Juanico             12
          Montevideo          11
          Progreso            11
          San Jose             3
          Uruguay             24

[425 rows x 1 columns]

最后，要知道可以同时按多个列排序：

import pandas as pd

reviews = pd.read_csv("../data/winemag-data-130k-v2.csv", index_col=0)
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
print(countries_reviewed.sort_values(by=['country', 'len']))

                             len
country   province              
Argentina Other              536
          Mendoza Province  3264
Armenia   Armenia              2
Australia Tasmania            42
          New South Wales     85
...                          ...
Uruguay   Montevideo          11
          Progreso            11
          Juanico             12
          Uruguay             24
          Canelones           43

[425 rows x 1 columns]

转载自链接

Pandas数据分析

04 分组与排序

介绍

分组分析

多索引

排序