У мене є великий (близько 12 М рядків) кадр даних df з кажуть:
df.columns = ['word','documents','frequency']
Отже, наступні пробігли своєчасно:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Однак для запуску цього потрібно несподівано багато часу:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
Що я тут роблю неправильно? Чи є кращий спосіб підрахунку випадків у великому кадрі даних?
df.word.describe()
працює досить добре, тому я дійсно не очікував, що цей фреймворк даних Occurrences_of_Words буде тривати дуже довго.
ps: Якщо відповідь очевидна і ви відчуваєте потребу стягнути мене за те, щоб задати це питання, будь ласка, включіть відповідь. спасибі.
df.word.value_counts()['myword']
, приблизно вдвічі швидшеlen(df[df.word == 'myword'])
.