Python: отримайте підрахунок частоти на основі двох стовпців (змінних) у фреймі даних pandas деяких рядків


92

Привіт, у мене такий фрейм даних.

    Group           Size

    Short          Small
    Short          Small
    Moderate       Medium
    Moderate       Small
    Tall           Large

Я хочу підрахувати частоту того, скільки разів той самий рядок відображається у фреймі даних.

    Group           Size      Time

    Short          Small        2
    Moderate       Medium       1 
    Moderate       Small        1
    Tall           Large        1

1
Примітка щодо продуктивності, включаючи альтернативи: Pandas groupby.size vs series.value_counts vs collection.Counter with multiple series
jpp

Відповіді:


144

Ви можете використовувати groupby size:

In [11]: df.groupby(["Group", "Size"]).size()
Out[11]:
Group     Size
Moderate  Medium    1
          Small     1
Short     Small     2
Tall      Large     1
dtype: int64

In [12]: df.groupby(["Group", "Size"]).size().reset_index(name="Time")
Out[12]:
      Group    Size  Time
0  Moderate  Medium     1
1  Moderate   Small     1
2     Short   Small     2
3      Tall   Large     1

7
Дякую. Одне незначне доповнення для вибору найвищих значень k (= 20) на основі частоти ("Час"): df.groupby (["Група", "Розмір"]). Size (). Reset_index (name = "Time") .sort_values ​​(за = 'Час', зростаючий = False) .head (20);
Dileep Kumar Patchigolla

1
Просто зауважте, що використання .size()will повертає Series while .size().reset_index(name="Time")- це DataFrame. Дякую Енді.
алелемол

або ви можете зробити df.groupby(by=["Group", "Size"], as_index=False).size()просто
Naveen Kumar

51

Оновлення після pandas 1.1value_countsтепер приймає кілька стовпців

df.value_counts(["Group", "Size"])

Ви також можете спробувати pd.crosstab()

Group           Size

Short          Small
Short          Small
Moderate       Medium
Moderate       Small
Tall           Large

pd.crosstab(df.Group,df.Size)


Size      Large  Medium  Small
Group                         
Moderate      0       1      1
Short         0       0      2
Tall          1       0      0

РЕДАГУВАТИ: Для того, щоб вас виклали

pd.crosstab(df.Group,df.Size).replace(0,np.nan).\
     stack().reset_index().rename(columns={0:'Time'})
Out[591]: 
      Group    Size  Time
0  Moderate  Medium   1.0
1  Moderate   Small   1.0
2     Short   Small   2.0
3      Tall   Large   1.0

7
приємно. Ви навіть можете додати, margins=Trueщоб отримати граничні показники!
Метт Хенкок,

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.