У мене є data.frame, що містить кілька стовпців із усіма значеннями NA, як я можу їх видалити з data.frame.
Чи можу я скористатися функцією
na.omit(...)
вказуючи деякі додаткові аргументи?
У мене є data.frame, що містить кілька стовпців із усіма значеннями NA, як я можу їх видалити з data.frame.
Чи можу я скористатися функцією
na.omit(...)
вказуючи деякі додаткові аргументи?
head(data)
? Видалити відповідні стовпці або рядки?
Відповіді:
Один із способів зробити це:
df[, colSums(is.na(df)) != nrow(df)]
Якщо кількість НС у стовпці дорівнює кількості рядків, це має бути повністю НС.
Або так само
df[colSums(!is.na(df)) > 0]
df[, colSums(is.na(df)) < nrow(df) * 0.5]
тобто зберігати лише стовпці з принаймні 50% непустих.
df[, colSums(is.na(df)) != nrow(df) - 1]
оскільки діагональ завжди1
df %>% select_if(colSums(!is.na(.)) > 0)
Ось рішення dplyr:
df %>% select_if(~sum(!is.na(.)) > 0)
janitor::remove_empty_cols()
застаріло - використовуйтеdf <- janitor::remove_empty(df, which = "cols")
Здається, ви хочете видалити ТІЛЬКИ стовпці з усіма NA
s, залишаючи стовпці з деякими рядками, які мають NA
s. Я б зробив це (але я впевнений, що існує ефективна векторизована пропозиція:
#set seed for reproducibility
set.seed <- 103
df <- data.frame( id = 1:10 , nas = rep( NA , 10 ) , vals = sample( c( 1:3 , NA ) , 10 , repl = TRUE ) )
df
# id nas vals
# 1 1 NA NA
# 2 2 NA 2
# 3 3 NA 1
# 4 4 NA 2
# 5 5 NA 2
# 6 6 NA 3
# 7 7 NA 2
# 8 8 NA 3
# 9 9 NA 3
# 10 10 NA 2
#Use this command to remove columns that are entirely NA values, it will elave columns where only some vlaues are NA
df[ , ! apply( df , 2 , function(x) all(is.na(x)) ) ]
# id vals
# 1 1 NA
# 2 2 2
# 3 3 1
# 4 4 2
# 5 5 2
# 6 6 3
# 7 7 2
# 8 8 3
# 9 9 3
# 10 10 2
Якщо ви потрапили в ситуацію, коли ви хочете видалити стовпці, які мають будь-які NA
значення, ви можете просто змінити all
наведену вище команду на any
.
NA
.
apply(is.na(df), 1, all)
лише тому, що він трохи акуратніший і is.na()
використовується в усіх, df
а не в одному рядку за раз (шоу буде трохи швидшим).
Інтуїтивний сценарій: dplyr::select_if(~!all(is.na(.)))
. Він буквально зберігає лише не всі елементи, в яких відсутні стовпці. (для видалення стовпців, у яких відсутні всі елементи).
> df <- data.frame( id = 1:10 , nas = rep( NA , 10 ) , vals = sample( c( 1:3 , NA ) , 10 , repl = TRUE ) )
> df %>% glimpse()
Observations: 10
Variables: 3
$ id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
$ nas <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA
$ vals <int> NA, 1, 1, NA, 1, 1, 1, 2, 3, NA
> df %>% select_if(~!all(is.na(.)))
id vals
1 1 NA
2 2 1
3 3 1
4 4 NA
5 5 1
6 6 1
7 7 1
8 8 2
9 9 3
10 10 NA
Оскільки продуктивність для мене була дійсно важливою, я порівняв усі функції вище.
ПРИМІТКА: Дані з допису @Simon O'Hanlon. Тільки з розміром 15000 замість 10.
library(tidyverse)
library(microbenchmark)
set.seed(123)
df <- data.frame(id = 1:15000,
nas = rep(NA, 15000),
vals = sample(c(1:3, NA), 15000,
repl = TRUE))
df
MadSconeF1 <- function(x) x[, colSums(is.na(x)) != nrow(x)]
MadSconeF2 <- function(x) x[colSums(!is.na(x)) > 0]
BradCannell <- function(x) x %>% select_if(~sum(!is.na(.)) > 0)
SimonOHanlon <- function(x) x[ , !apply(x, 2 ,function(y) all(is.na(y)))]
jsta <- function(x) janitor::remove_empty(x)
SiboJiang <- function(x) x %>% dplyr::select_if(~!all(is.na(.)))
akrun <- function(x) Filter(function(y) !all(is.na(y)), x)
mbm <- microbenchmark(
"MadSconeF1" = {MadSconeF1(df)},
"MadSconeF2" = {MadSconeF2(df)},
"BradCannell" = {BradCannell(df)},
"SimonOHanlon" = {SimonOHanlon(df)},
"SiboJiang" = {SiboJiang(df)},
"jsta" = {jsta(df)},
"akrun" = {akrun(df)},
times = 1000)
mbm
Результати:
Unit: microseconds
expr min lq mean median uq max neval cld
MadSconeF1 154.5 178.35 257.9396 196.05 219.25 5001.0 1000 a
MadSconeF2 180.4 209.75 281.2541 226.40 251.05 6322.1 1000 a
BradCannell 2579.4 2884.90 3330.3700 3059.45 3379.30 33667.3 1000 d
SimonOHanlon 511.0 565.00 943.3089 586.45 623.65 210338.4 1000 b
SiboJiang 2558.1 2853.05 3377.6702 3010.30 3310.00 89718.0 1000 d
jsta 1544.8 1652.45 2031.5065 1706.05 1872.65 11594.9 1000 c
akrun 93.8 111.60 139.9482 121.90 135.45 3851.2 1000 a
autoplot(mbm)
mbm %>%
tbl_df() %>%
ggplot(aes(sample = time)) +
stat_qq() +
stat_qq_line() +
facet_wrap(~expr, scales = "free")