Python Pandas: групувати за групою за середнім значенням?

92

У мене такий фрейм даних:

cluster  org      time
   1      a       8
   1      a       6
   2      h       34
   1      c       23
   2      d       74
   3      w       6

Я хотів би розрахувати середнє значення часу на організацію на кластер.

Очікуваний результат:

cluster mean(time)
1       15 ((8+6)/2+23)/2
2       54   (74+34)/2
3       6

Я не знаю, як це зробити в Пандах, хтось може допомогти?

— КористувачYmY
джерело

2

Вибачте, що ви хочете df.groupby(['org','cluster']).mean()? це не так важливо для вашого набору даних, на відміну від цього:df.groupby(['cluster','org']).mean()

— EdChum

@EdChum дякую за вашу допомогу, але я хочу, щоб це не було. Але "середнє середнє значення часу на організацію". Будь ласка, перегляньте очікуваний результат (відредаговано)

— UserYmY

131

Якщо ви хочете спочатку взяти середнє значення для комбінації, ['cluster', 'org']а потім взяти середнє значення для clusterгруп, ви можете використовувати:

In [59]: (df.groupby(['cluster', 'org'], as_index=False).mean()
            .groupby('cluster')['time'].mean())
Out[59]:
cluster
1          15
2          54
3           6
Name: time, dtype: int64

Якщо вам потрібне лише середнє значення clusterгруп, тоді ви можете використовувати:

In [58]: df.groupby(['cluster']).mean()
Out[58]:
              time
cluster
1        12.333333
2        54.000000
3         6.000000

Ви можете також використовувати groupbyна ['cluster', 'org']і потім використовувати mean():

In [57]: df.groupby(['cluster', 'org']).mean()
Out[57]:
               time
cluster org
1       a    438886
        c        23
2       d      9874
        h        34
3       w         6

— Нуль
джерело

Але я хочу одне число на кластер (середнє середнє значення часу на організацію). Отже, результат - лише кластер та середній час

— UserYmY

1

Перший - це те, що мені потрібно, дякую - чи є простий спосіб додати стовпець у df, що містить ці середні значення для кластера рядків?

— Mr_and_Mrs_D

12

Я б просто зробив це, що буквально випливає з того, якою була ваша бажана логіка:

df.groupby(['org']).mean().groupby(['cluster']).mean()

— Вінс Паянде
джерело