Як я можу отримати стихійний логічний НЕ з серії панд?


229

У мене є об'єкт панди, Seriesщо містить булеві значення. Як я можу отримати серію, що містить логічнуNOT значення кожного?

Наприклад, розглянемо серію, що містить:

True
True
True
False

Серія, яку я хотів би отримати, містила б:

False
False
False
True

Це здається, що це має бути досить просто, але, мабуть, я неправильно помістив моджо = (


1
Важливо, щоб дані не містили objectтипів для відповідей нижче, щоб працювати, тому використовуйте:~ df.astype('bool')
LearnOPhile

Я писав про всі логічні оператори в цій публікації . Пост також включає альтернативи.
cs95

Відповіді:


260

Щоб перетворити булеву серію, використовуйте~s :

In [7]: s = pd.Series([True, True, False, True])

In [8]: ~s
Out[8]: 
0    False
1    False
2     True
3    False
dtype: bool

Використовуючи Python2.7, NumPy 1.8.0, Pandas 0.13.1:

In [119]: s = pd.Series([True, True, False, True]*10000)

In [10]:  %timeit np.invert(s)
10000 loops, best of 3: 91.8 µs per loop

In [11]: %timeit ~s
10000 loops, best of 3: 73.5 µs per loop

In [12]: %timeit (-s)
10000 loops, best of 3: 73.5 µs per loop

Станом на Pandas 0.13.0, Series більше не є підкласами numpy.ndarray; вони зараз є підкласами pd.NDFrame. Це може мати щось спільне з тим, чому np.invert(s)це вже не так швидко, як ~sабо -s.

Caveat: timeitрезультати можуть відрізнятися залежно від багатьох факторів, включаючи апаратні засоби, компілятор, ОС, версії Python, NumPy та Pandas.


Належним чином відзначено. Окрім того, що набагато повільніше, яка різниця між тильдом та -?
blz

Wierd, я фактично перевіряв те, tildeяк це було зазначено в документації, але це не було так, як np.invert: S
root

@blz: Принаймні , на моїй машині Ubuntu, працює NumPy 1.6.2, продуктивність np.invert(s), ~sі -sвсе ж.
unutbu

@root: Я не впевнений, чому існує така велика невідповідність наших результатів, але це, безумовно, може статися. Яку ОС та версію NumPy ви використовуєте?
unutbu

Також на Ubuntu, але з використанням NumPy 1.7.0 ... ( np.bitwise_not(s)виконує те саме, що np.inverse).
корінь

32

Відповідь @ unutbu - це місце, просто хотілося додати попередження про те, що ваша маска повинна мати тип bool, а не «об’єкт». Тобто у вашій масці ніколи не було жодної няні. Дивіться тут - навіть якщо ваша маска зараз без нан, вона залишатиметься "об’єктним" типом.

Зворотний ряд "об'єкта" не призведе до помилки, натомість ви отримаєте маску сміття з ints, яка не буде працювати, як ви очікували.

In[1]: df = pd.DataFrame({'A':[True, False, np.nan], 'B':[True, False, True]})
In[2]: df.dropna(inplace=True)
In[3]: df['A']
Out[3]:
0    True
1   False
Name: A, dtype object
In[4]: ~df['A']
Out[4]:
0   -2
0   -1
Name: A, dtype object

Після розмови з колегами з цього приводу у мене є пояснення: схоже, панди повертаються до бітового оператора:

In [1]: ~True
Out[1]: -2

Як говорить @geher, ви можете перетворити його в bool з астипеєм, перш ніж ви обернетесь ~

~df['A'].astype(bool)
0    False
1     True
Name: A, dtype: bool
(~df['A']).astype(bool)
0    True
1    True
Name: A, dtype: bool

у вашому прикладі маску вихідних вкладок можна перетворити на потрібну серію bool, .astype(bool)наприклад,~df['A'].astype(bool)
geher

Це працює, тому що astype(bool)відбувається перед ~ ~df['A'].astype(bool)vs(~df['A']).astype(bool)
JSharm

16

Я просто даю це зробити:

In [9]: s = Series([True, True, True, False])

In [10]: s
Out[10]: 
0     True
1     True
2     True
3    False

In [11]: -s
Out[11]: 
0    False
1    False
2    False
3     True

Я буквально пробував кожного оператора, окрім -! Я буду мати це на увазі наступного разу.
blz

6

Ви також можете використовувати numpy.invert:

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: s = pd.Series([True, True, False, True])

In [4]: np.invert(s)
Out[4]: 
0    False
1    False
2     True
3    False

EDIT: Різниця в продуктивності з'являється на Ubuntu 12.04, Python 2.7, NumPy 1.7.0 - здається, не існує NumPy 1.6.2, хоча:

In [5]: %timeit (-s)
10000 loops, best of 3: 26.8 us per loop

In [6]: %timeit np.invert(s)
100000 loops, best of 3: 7.85 us per loop

In [7]: %timeit ~s
10000 loops, best of 3: 27.3 us per loop

це може бути неправильним на іншій платформі. Win 7, python 3.6.3 numpy 1.13.3, панди 0.20.3, (-s) будуть найшвидшими, (~ s) - другим, а np.invert (s) - найповільнішим
gaozhidf

0

NumPy повільніше, оскільки він кидає вхід на булеві значення (тому None і 0 стає False, а все інше стає True).

import pandas as pd
import numpy as np
s = pd.Series([True, None, False, True])
np.logical_not(s)

дає тобі

0    False
1     True
2     True
3    False
dtype: object

тоді як ~ s зазнає краху. У більшості випадків тильда виявиться більш безпечним вибором, ніж NumPy.

Панди 0,25, NumPy 1,17

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.