Як визначити, чи є стовпець / змінна числовим чи ні в Pandas / NumPy?


89

Чи є кращий спосіб визначити, чи є змінна в Pandasта / або NumPyє numericчи ні?

У мене є певний себе dictionaryз dtypesяк ключі та numeric/ в notякості значень.


15
Ви можете перевірити dtype.kind in 'biufc'.
Хайме

1
Коментар над цим, опублікований Хайме, був простішим, ніж наведені нижче, і, здається, спрацював чудово ...... дякую
hfrog713

Відповіді:


97

У pandas 0.20.2це можна зробити:

import pandas as pd
from pandas.api.types import is_string_dtype
from pandas.api.types import is_numeric_dtype

df = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [1.0, 2.0, 3.0]})

is_string_dtype(df['A'])
>>>> True

is_numeric_dtype(df['B'])
>>>> True

Я б сказав, що це більш елегантне рішення. Дякую
нібито, якби

84

Ви можете використовувати, np.issubdtypeщоб перевірити, чи dtype є підтипом np.number. Приклади:

np.issubdtype(arr.dtype, np.number)  # where arr is a numpy array
np.issubdtype(df['X'].dtype, np.number)  # where df['X'] is a pandas Series

Це працює для dtypes numpy, але не вдається для певних типів панд, таких як pd.Categorical, як зазначив Томас . Якщо ви використовуєте is_numeric_dtypeфункцію categoricals від pandas, це краща альтернатива, ніж np.issubdtype.

df = pd.DataFrame({'A': [1, 2, 3], 'B': [1.0, 2.0, 3.0], 
                   'C': [1j, 2j, 3j], 'D': ['a', 'b', 'c']})
df
Out: 
   A    B   C  D
0  1  1.0  1j  a
1  2  2.0  2j  b
2  3  3.0  3j  c

df.dtypes
Out: 
A         int64
B       float64
C    complex128
D        object
dtype: object

np.issubdtype(df['A'].dtype, np.number)
Out: True

np.issubdtype(df['B'].dtype, np.number)
Out: True

np.issubdtype(df['C'].dtype, np.number)
Out: True

np.issubdtype(df['D'].dtype, np.number)
Out: False

Для кількох стовпців ви можете використовувати np.vectorize:

is_number = np.vectorize(lambda x: np.issubdtype(x, np.number))
is_number(df.dtypes)
Out: array([ True,  True,  True, False], dtype=bool)

А на вибір, панда тепер має select_dtypes:

df.select_dtypes(include=[np.number])
Out: 
   A    B   C
0  1  1.0  1j
1  2  2.0  2j
2  3  3.0  3j

1
Здається, це не працює надійно з pandas DataFrames, оскільки вони можуть повертати категорії, невідомі numpy, як "категорія". Потім Numpy кидає "TypeError: тип даних не зрозумілий"
Томас

23

Виходячи з відповіді @ jaime у коментарях, вам потрібно перевірити .dtype.kindколонку, яка вас цікавить. Наприклад;

>>> import pandas as pd
>>> df = pd.DataFrame({'numeric': [1, 2, 3], 'not_numeric': ['A', 'B', 'C']})
>>> df['numeric'].dtype.kind in 'biufc'
>>> True
>>> df['not_numeric'].dtype.kind in 'biufc'
>>> False

NB Значення biufc: bbool, iint (підпис), uunsigned int, ffloat, ccomplex. Див. Https://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.kind.html#numpy.dtype.kind


3
Ось список усіх типів dtype [1]. Малі регістри uпризначені для цілого числа без знака; великі літери Uпризначені для Unicode. [1]: docs.scipy.org/doc/numpy/reference/generated/…
cbarrick

7

Панда має select_dtypeфункцію. Ви можете легко відфільтрувати свої стовпці на int64 та float64 так:

df.select_dtypes(include=['int64','float64'])

4

Це псевдо-внутрішній метод повернення лише числових типів даних

In [27]: df = DataFrame(dict(A = np.arange(3), 
                             B = np.random.randn(3), 
                             C = ['foo','bar','bah'], 
                             D = Timestamp('20130101')))

In [28]: df
Out[28]: 
   A         B    C                   D
0  0 -0.667672  foo 2013-01-01 00:00:00
1  1  0.811300  bar 2013-01-01 00:00:00
2  2  2.020402  bah 2013-01-01 00:00:00

In [29]: df.dtypes
Out[29]: 
A             int64
B           float64
C            object
D    datetime64[ns]
dtype: object

In [30]: df._get_numeric_data()
Out[30]: 
   A         B
0  0 -0.667672
1  1  0.811300
2  2  2.020402

Так, я намагався зрозуміти, як вони це роблять. Можна очікувати, що внутрішня функція IsNumeric запускається за стовпцем ... але все одно не знайшла її в коді
user2808117

Ви можете застосувати це для кожного стовпця, але набагато простіше просто перевірити dtype. у будь-якому випадку операції панд виключають нечислові, коли це необхідно. що ти намагаєшся зробити?
Джефф

4

Як щодо просто перевірки типу для одного зі значень у стовпці? У нас завжди було щось подібне:

isinstance(x, (int, long, float, complex))

Коли я намагаюся перевірити типи даних для стовпців у нижньому фреймі даних, я отримую їх як "об'єкт", а не числовий тип, який я очікую:

df = pd.DataFrame(columns=('time', 'test1', 'test2'))
for i in range(20):
    df.loc[i] = [datetime.now() - timedelta(hours=i*1000),i*10,i*100]
df.dtypes

time     datetime64[ns]
test1            object
test2            object
dtype: object

Коли я роблю наступне, здається, це дає точний результат:

isinstance(df['test1'][len(df['test1'])-1], (int, long, float, complex))

повертається

True

1

Ви також можете спробувати:

df_dtypes = np.array(df.dtypes)
df_numericDtypes= [x.kind in 'bifc' for x in df_dtypes]

Він повертає список логічних значень: Trueякщо числовий, Falseякщо ні.


1

Просто щоб додати до всіх інших відповідей, можна також використовувати, df.info()щоб отримати тип даних кожного стовпця.


1

Ви можете перевірити, чи містить вказаний стовпець числові значення, чи не використовує dtypes

numerical_features = [feature for feature in train_df.columns if train_df[feature].dtypes != 'O']

Примітка: "O" має бути капіталом

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.