Як передати інший цілий стовпець як аргумент pandas fillna ()

Question 1

Я хотів би заповнити відсутні значення в одному стовпці значеннями з іншого стовпця, використовуючи fillnaметод.

(Я читав, що перебирання кожного рядка було б дуже поганою практикою, і що краще було б робити все за один раз, але я не міг дізнатися, як це зробити fillna.)

Дані до:

Day  Cat1  Cat2
1    cat   mouse
2    dog   elephant
3    cat   giraf
4    NaN   ant

Дані після:

Day  Cat1  Cat2
1    cat   mouse
2    dog   elephant
3    cat   giraf
4    ant   ant

Question 2

Ви можете надати цей стовпець fillna(див. Документи ), він буде використовувати ці значення для відповідних індексів для заповнення:

In [17]: df['Cat1'].fillna(df['Cat2'])
Out[17]:
0    cat
1    dog
2    cat
3    ant
Name: Cat1, dtype: object

Question 3

Ви могли б це зробити

df.Cat1 = np.where(df.Cat1.isnull(), df.Cat2, df.Cat1)

Загальна конструкція на RHS використовує потрійний зразок з pandasкулінарної книги (яку в будь-якому випадку варто прочитати). Це векторна версія a? b: c.

Question 4

Просто використовуйте valueпараметр замість method:

In [20]: df
Out[20]:
  Cat1      Cat2  Day
0  cat     mouse    1
1  dog  elephant    2
2  cat     giraf    3
3  NaN       ant    4

In [21]: df.Cat1 = df.Cat1.fillna(value=df.Cat2)

In [22]: df
Out[22]:
  Cat1      Cat2  Day
0  cat     mouse    1
1  dog  elephant    2
2  cat     giraf    3
3  ant       ant    4

Question 5

pandas.DataFrame.combine_first також працює.

( Увага: оскільки "Стовпці індексу результату будуть об'єднанням відповідних індексів і стовпців", слід перевірити, чи індекс і стовпці відповідають )

import numpy as np
import pandas as pd
df = pd.DataFrame([["1","cat","mouse"],
    ["2","dog","elephant"],
    ["3","cat","giraf"],
    ["4",np.nan,"ant"]],columns=["Day","Cat1","Cat2"])

In: df["Cat1"].combine_first(df["Cat2"])
Out: 
0    cat
1    dog
2    cat
3    ant
Name: Cat1, dtype: object

Порівняйте з іншими відповідями:

%timeit df["Cat1"].combine_first(df["Cat2"])
181 µs ± 11.3 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

%timeit df['Cat1'].fillna(df['Cat2'])
253 µs ± 10.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit np.where(df.Cat1.isnull(), df.Cat2, df.Cat1)
88.1 µs ± 793 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Я не використовував цей метод нижче:

def is_missing(Cat1,Cat2):    
    if np.isnan(Cat1):        
        return Cat2
    else:
        return Cat1

df['Cat1'] = df.apply(lambda x: is_missing(x['Cat1'],x['Cat2']),axis=1)

тому що це спричинить виняток:

TypeError: ("ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''", 'occurred at index 0')

що означає, що np.isnan можна застосувати до масивів NumPy рідного dtype (наприклад, np.float64), але піднімає TypeError при застосуванні до масивів об'єктів .

Тож я переглядаю метод:

def is_missing(Cat1,Cat2):    
    if pd.isnull(Cat1):        
        return Cat2
    else:
        return Cat1

%timeit df.apply(lambda x: is_missing(x['Cat1'],x['Cat2']),axis=1)
701 µs ± 7.38 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Question 6

Ось більш загальний підхід (метод fillna, мабуть, кращий)

def is_missing(Cat1,Cat2):    
    if np.isnan(Cat1):        
        return Cat2
    else:
        return Cat1

df['Cat1'] = df.apply(lambda x: is_missing(x['Cat1'],x['Cat2']),axis=1)

Question 7

Я знаю, що це давнє запитання, але нещодавно мені було потрібно зробити щось подібне. Я зміг використати наступне:

df = pd.DataFrame([["1","cat","mouse"],
    ["2","dog","elephant"],
    ["3","cat","giraf"],
    ["4",np.nan,"ant"]],columns=["Day","Cat1","Cat2"])

print(df)

  Day Cat1      Cat2
0   1  cat     mouse
1   2  dog  elephant
2   3  cat     giraf
3   4  NaN       ant

df1 = df.bfill(axis=1).iloc[:, 1]
df1 = df1.to_frame()
print(df1)

Що дає:

  Cat1
0  cat
1  dog
2  cat
3  ant

Сподіваюся, це комусь корисно!