перетворити значення nn на нуль


95

У мене є 2D масив numpy. Деякі значення в цьому масиві є NaN. Я хочу виконати певні операції, використовуючи цей масив. Наприклад, розглянемо масив:

[[   0.   43.   67.    0.   38.]
 [ 100.   86.   96.  100.   94.]
 [  76.   79.   83.   89.   56.]
 [  88.   NaN   67.   89.   81.]
 [  94.   79.   67.   89.   69.]
 [  88.   79.   58.   72.   63.]
 [  76.   79.   71.   67.   56.]
 [  71.   71.   NaN   56.  100.]]

Я намагаюся взяти кожен рядок по одному, відсортувати його в зворотному порядку, щоб отримати з рядка максимум 3 значення та взяти їх середнє значення. Код, який я спробував:

# nparr is a 2D numpy array
for entry in nparr:
    sortedentry = sorted(entry, reverse=True)
    highest_3_values = sortedentry[:3]
    avg_highest_3 = float(sum(highest_3_values)) / 3

Це не працює для рядків, що містять NaN. Моє питання полягає в тому, чи є швидкий спосіб перетворити всі NaNзначення на нуль у двовимірному масиві numpy, щоб у мене не було проблем із сортуванням та іншими речами, які я намагаюся зробити.


1
each: map: return isNaN(value) ? 0 : value
kirilloid

@kirilloid: звучить добре, а як щодо використання прикладів?
serv-inc

Відповіді:


124

Це має спрацювати:

from numpy import *

a = array([[1, 2, 3], [0, 3, NaN]])
where_are_NaNs = isnan(a)
a[where_are_NaNs] = 0

У наведеному вище випадку where_are_NaNs:

In [12]: where_are_NaNs
Out[12]: 
array([[False, False, False],
       [False, False,  True]], dtype=bool)

139

Де Aваш 2D-масив:

import numpy as np
A[np.isnan(A)] = 0

Функція isnanстворює масив bool із зазначенням місця NaNзначень. Булевий масив може використовуватися для індексації масиву однакової форми. Думайте про це як про маску.


40

Як щодо nan_to_num () ?


11
nan_to_num () також змінює нескінченність - це може бути небажаним у деяких випадках.
Agos

11
Це також> 10 разів повільніше, ніж інші методи.
користувач48956

7
Я не був впевнений у твердженні "> 10x повільний", тому перевірив. Дійсно, це набагато повільніше. Дякуємо, що вказали на це.
Габріель

16

Ви можете використовувати, np.whereщоб знайти, де у вас є NaN:

import numpy as np

a = np.array([[   0,   43,   67,    0,   38],
              [ 100,   86,   96,  100,   94],
              [  76,   79,   83,   89,   56],
              [  88,   np.nan,   67,   89,   81],
              [  94,   79,   67,   89,   69],
              [  88,   79,   58,   72,   63],
              [  76,   79,   71,   67,   56],
              [  71,   71,   np.nan,   56,  100]])

b = np.where(np.isnan(a), 0, a)

In [20]: b
Out[20]: 
array([[   0.,   43.,   67.,    0.,   38.],
       [ 100.,   86.,   96.,  100.,   94.],
       [  76.,   79.,   83.,   89.,   56.],
       [  88.,    0.,   67.,   89.,   81.],
       [  94.,   79.,   67.,   89.,   69.],
       [  88.,   79.,   58.,   72.,   63.],
       [  76.,   79.,   71.,   67.,   56.],
       [  71.,   71.,    0.,   56.,  100.]])

1
як це є, це не працює, вам потрібно змінити np.where(np.isnan(a), a, 0)на np.where(~np.isnan(a), a, 0). Це, можливо, різниця у використовуваних версіях.
TehTris 01.03.18

1
@TehTris ти маєш рацію, дякую. Я змінив його на той, b = np.where(np.isnan(a), 0, a)який є більш простим, ніж тоді, ~як я думаю.
Антон Протопопов


3

Ви можете використовувати numpy.nan_to_num :

numpy.nan_to_num (х): Замінити нан з нуля і інф з кінцевим числом .

Приклад (див. Документ):

>>> np.set_printoptions(precision=8)
>>> x = np.array([np.inf, -np.inf, np.nan, -128, 128])
>>> np.nan_to_num(x)
array([  1.79769313e+308,  -1.79769313e+308,   0.00000000e+000,
        -1.28000000e+002,   1.28000000e+002])

1

nan ніколи не дорівнює nan

if z!=z:z=0

так для 2D-масиву

for entry in nparr:
    if entry!=entry:entry=0

Це не працює: entryце одновимірний масив, тому тест entry != entryне дає простого логічного значення, а піднімає ValueError.
Ерік Лебіго

-1

Ви можете використовувати лямбда-функцію, приклад для 1D масиву:

import numpy as np
a = [np.nan, 2, 3]
map(lambda v:0 if np.isnan(v) == True else v, a)

Це дасть вам результат:

[0, 2, 3]

-8

Для ваших цілей, якщо всі елементи зберігаються як, strі ви просто використовуєте сортування, як ви використовуєте, а потім перевірте перший елемент і замініть його на "0"

>>> l1 = ['88','NaN','67','89','81']
>>> n = sorted(l1,reverse=True)
['NaN', '89', '88', '81', '67']
>>> import math
>>> if math.isnan(float(n[0])):
...     n[0] = '0'
... 
>>> n
['0', '89', '88', '81', '67']

6
Ваш коментар не трохи суворий? Я знаю, що таке numpy, але знав, що масив не буде рядковим поданням чисел. Я спеціально дав це не з точки зору Numpy, а з точки зору Python, якщо це було корисно.
Senthil Kumaran

2
Переупорядкування масиву просто звучить як заплутаний спосіб вирішення цього.
holografix

Мені потрібно зберегти порядок свого масиву. Це не спрацює, якщо у вашому масиві є кілька NaN.
3nrique0
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.