Як скинути стовпці за іменем у кадр даних

304

У мене є великий набір даних, і я хотів би прочитати конкретні стовпці або скинути всі інші.

data <- read.dta("file.dta")

Я вибираю стовпці, які мене не цікавлять:

var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")]

і чим я хотів би зробити щось на кшталт:

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

щоб скинути всі небажані стовпці. Це оптимальне рішення?

r dataframe subset

— леру
джерело

1

спав над проблемою, я думав, що subset(data, select=c(...))допомагає в моєму випадку для відпадання вар. питання, головним чином, стосувалося paste("data$",var.out[i],sep="")частини доступу до стовпців, що цікавлять всередині циклу. як я можу вставити чи якось скласти назву стовпця? Дякуємо всім за увагу та вашу допомогу

— leroux

7

Можливий дублікат стовпців Drop у кадрі даних R

— jangorecki

380

Вам слід використовувати або індексацію, або subsetфункцію. Наприклад :

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8

Тоді ви можете використовувати whichфункцію та -оператора в індексації стовпців:

R> df[ , -which(names(df) %in% c("z","u"))]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

Або, що набагато простіше, використовуйте selectаргумент subsetфункції: ви можете використовувати -оператор безпосередньо на вектор імен стовпців, і навіть можете опустити лапки навколо імен!

R> subset(df, select=-c(z,u))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

Зауважте, що ви також можете вибрати потрібні стовпці замість того, щоб скидати інші:

R> df[ , c("x","y")]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

R> subset(df, select=c(x,y))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

— джуба
джерело

2

selectаргумент subsetфункції зробили роботу відмінно! Дякую тобі, юбе!

— leroux

2

whichне потрібно, дивіться відповідь Істи. Але підмножина з -приємною! Не знав цього!

— TMS

5

subsetвиглядає добре, але те, як він мовчки скидає пропущені значення, здається мені досить небезпечним.

— static_rtti

2

subsetнасправді дуже зручно, але пам’ятайте, щоб не використовувати його, якщо ви не використовуєте R інтерактивно. Див . Попередження в документації до функції та це запитання щодо більш детальної інформації.

— Вальдір Леонсіо

4

"Ви можете навіть опустити лапки навколо імен!", фактично вам доведеться опустити цитати, інакше ви отримаєте невірний аргумент унарному оператору. Якщо у своїх іменах є певні символи (наприклад, "-"), ви не можете використовувати цей метод взагалі, оскільки випадання лапок призведе до того, що R не зможе правильно проаналізувати ваш код.

— ох54,

122

Не використовуйте -which()для цього, це надзвичайно небезпечно. Поміркуйте:

dat <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
dat[ , -which(names(dat) %in% c("z","u"))] ## works as expected
dat[ , -which(names(dat) %in% c("foo","bar"))] ## deletes all columns! Probably not what you wanted...

Замість цього використовуйте підмножину або !функцію:

dat[ , !names(dat) %in% c("z","u")] ## works as expected
dat[ , !names(dat) %in% c("foo","bar")] ## returns the un-altered data.frame. Probably what you want

Я дізнався це з болісного досвіду. Не зловживайте which()!

— Іста
джерело

31

setdiffтакож корисний:setdiff(names(dat), c("foo", "bar"))

— hadley

setdiffПропозиція @hadley дуже добре для довгих списків імен.

— JASC

48

По-перше , ви можете використовувати пряму індексацію (з булевими векторами) замість повторного доступу до імен стовпців, якщо ви працюєте з тим самим фреймом даних; це буде безпечніше, як вказує Іста, і швидше писати та виконувати. Отже, що вам знадобиться лише це:

var.out.bool <- !names(data) %in% c("iden", "name", "x_serv", "m_serv")

а потім просто перепризначте дані:

data <- data[,var.out.bool] # or...
data <- data[,var.out.bool, drop = FALSE] # You will need this option to avoid the conversion to an atomic vector if there is only one column left

По-друге , швидше писати, ви можете безпосередньо призначити NULL стовпцям, які потрібно видалити:

data[c("iden", "name", "x_serv", "m_serv")] <- list(NULL) # You need list() to respect the target structure.

Нарешті , ви можете використовувати підмножину (), але вона справді не може бути використана в коді (навіть файл довідки попереджає про це). Зокрема, для мене проблема полягає в тому, що якщо ви хочете безпосередньо використовувати функцію drop susbset (), вам потрібно написати без лапок вираз, що відповідає назвам стовпців:

subset( data, select = -c("iden", "name", "x_serv", "m_serv") ) # WILL NOT WORK
subset( data, select = -c(iden, name, x_serv, m_serv) ) # WILL

Як бонус , ось невеликий орієнтир різних варіантів, який чітко показує, що підмножина відбувається повільніше, і що перший, метод переназначення, швидший:

                                        re_assign(dtest, drop_vec)  46.719  52.5655  54.6460  59.0400  1347.331
                                      null_assign(dtest, drop_vec)  74.593  83.0585  86.2025  94.0035  1476.150
               subset(dtest, select = !names(dtest) %in% drop_vec) 106.280 115.4810 120.3435 131.4665 65133.780
 subset(dtest, select = names(dtest)[!names(dtest) %in% drop_vec]) 108.611 119.4830 124.0865 135.4270  1599.577
                                  subset(dtest, select = -c(x, y)) 102.026 111.2680 115.7035 126.2320  1484.174

Графік мікробенка

Код нижче:

dtest <- data.frame(x=1:5, y=2:6, z = 3:7)
drop_vec <- c("x", "y")

null_assign <- function(df, names) {
  df[names] <- list(NULL)
  df
}

re_assign <- function(df, drop) {
  df <- df [, ! names(df) %in% drop, drop = FALSE]
  df
}

res <- microbenchmark(
  re_assign(dtest,drop_vec),
  null_assign(dtest,drop_vec),
  subset(dtest, select = ! names(dtest) %in% drop_vec),
  subset(dtest, select = names(dtest)[! names(dtest) %in% drop_vec]),
  subset(dtest, select = -c(x, y) ),
times=5000)

plt <- ggplot2::qplot(y=time, data=res[res$time < 1000000,], colour=expr)
plt <- plt + ggplot2::scale_y_log10() + 
  ggplot2::labs(colour = "expression") + 
  ggplot2::scale_color_discrete(labels = c("re_assign", "null_assign", "subset_bool", "subset_names", "subset_drop")) +
  ggplot2::theme_bw(base_size=16)
print(plt)

— Антуан Лізе
джерело

2

Мені подобається ваша друга альтернатива використання NULL, але чому, коли ви вводите більше двох імен, потрібно присвоїти її list(NULL)? Мені цікаво лише знати, як це працює, тому що я спробував лише одне ім’я і мені це не потрібноlist()

— Darwin PC

3

@DarwinPC Так. Якщо ви отримуєте доступ безпосередньо до одного векторного елемента (з $або [[), використання <- list(NULL)фактично призведе до неправильних результатів. Якщо ви отримуєте доступ до підмножини фрейму даних з одним або декількома стовпцями, <- list(NULL)це шлях, навіть якщо він не потрібен для одного фрейму даних для одного стовпця (тому що при необхідності df['myColumns']буде перекинуто на вектор).

— Антуан Лізе

27

Ви також можете спробувати dplyrпакет:

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8
R> library(dplyr)
R> dplyr::select(df2, -c(x, y))  # remove columns x and y
  z u
1 3 4
2 4 5
3 5 6
4 6 7
5 7 8

— Мегатрон
джерело

4

Використання dplyr::select(df2, -one_of(c('x','y')))все одно спрацює (з попередженням), навіть якщо деяких названих стовпців не існує

— divibisan

13

Ось швидке рішення для цього. Скажімо, у вас є кадр даних X з трьома стовпцями A, B і C:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6))
> X
  A B C
1 1 3 5
2 2 4 6

Якщо я хочу видалити стовпчик, скажімо, B, просто використовуйте grep на імена стовпців, щоб отримати індекс стовпців, який ви можете використовувати, щоб опустити стовпець.

> X<-X[,-grep("B",colnames(X))]

Ваш новий кадр даних X виглядатиме наступним чином (на цей раз без стовпця B):

Краса grep полягає в тому, що ви можете вказати кілька стовпців, які відповідають регулярному вираженню. Якби у мене було X з п'ятьма стовпцями (A, B, C, D, E):

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10

Вийміть стовпці B і D:

> X<-X[,-grep("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

EDIT: Розглядаючи гарну пропозицію Метью Лундберга в коментарях нижче:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10
> X<-X[,!grepl("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

Якщо я спробую скинути стовпчик, який не існує, нічого не повинно відбутися:

> X<-X[,!grepl("G",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

— Йобен Р. Ілаган
джерело

3

X[,-grep("B",colnames(X))]не повертає жодних стовпців у випадку, коли жодна назва стовпця не містить B, а не повертає всі стовпці, як хотілося б. Розглянемо X <- irisдля прикладу. У цьому полягає проблема використання негативних індексів з обчисленими значеннями. Розглянемо greplзамість цього.

— Метью Лундберг

6

Я намагався видалити стовпчик під час використання пакета data.tableі отримав несподіваний результат. Я думаю, наступне, можливо, варто опублікувати. Лише трохи застережливої записки.

[Під редакцією Матвія ...]

DF = read.table(text = "
     fruit state grade y1980 y1990 y2000
     apples Ohio   aa    500   100   55
     apples Ohio   bb      0     0   44
     apples Ohio   cc    700     0   33
     apples Ohio   dd    300    50   66
", sep = "", header = TRUE, stringsAsFactors = FALSE)

DF[ , !names(DF) %in% c("grade")]   # all columns other than 'grade'
   fruit state y1980 y1990 y2000
1 apples  Ohio   500   100    55
2 apples  Ohio     0     0    44
3 apples  Ohio   700     0    33
4 apples  Ohio   300    50    66

library('data.table')
DT = as.data.table(DF)

DT[ , !names(dat4) %in% c("grade")]    # not expected !! not the same as DF !!
[1]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE

DT[ , !names(DT) %in% c("grade"), with=FALSE]    # that's better
    fruit state y1980 y1990 y2000
1: apples  Ohio   500   100    55
2: apples  Ohio     0     0    44
3: apples  Ohio   700     0    33
4: apples  Ohio   300    50    66

В основному, синтаксис для data.tableНЕ точно такий же, як data.frame. Насправді існує багато відмінностей, див. FAQ 1.1 та FAQ 2.17. Вас попередили!

— Марк Міллер
джерело

1

Або ви можете використати DT[,var.out := NULL]для видалення стовпців, які ви хочете зробити.

— mnel

Метод підмножини (x, select = ...) працює як для класів, так data.frameі для data.tableкласів

— momeara

3

Я змінив код на:

# read data
dat<-read.dta("file.dta")

# vars to delete
var.in<-c("iden", "name", "x_serv", "m_serv")

# what I'm keeping
var.out<-setdiff(names(dat),var.in)

# keep only the ones I want       
dat <- dat[var.out]

У всякому разі, відповідь Джуби - найкраще рішення моєї проблеми!

— леру
джерело

Чому ти хочеш це робити в циклі? Відповіді Джуби відповідають вам, як це зробити за один крок. Чому це ускладнюється?

— Іста

Звичайно, я використовую selectаргумент subsetфункції у своєму коді. Я просто хотів побачити, як я можу отримати доступ до довільних стовпців у циклі на випадок, якщо я захотів зробити щось інше, ніж просто пропустити стовпець. оригінальний набір даних нараховує близько 1200 варіантів, і мені цікаво лише 4 з них, не знаючи, де саме вони є.

— leroux

2

Ось ще одне рішення, яке може бути корисним для інших. Код нижче вибирає невелику кількість рядків і стовпців з великого набору даних. Стовпці вибрані як у одній з відповідей juba, за винятком того, що я використовую функцію вставки для вибору набору стовпців із іменами, які нумеруються послідовно:

df = read.table(text = "

state county city  region  mmatrix  X1 X2 X3    A1     A2     A3      B1     B2     B3      C1      C2      C3

  1      1     1      1     111010   1  0  0     2     20    200       4      8     12      NA      NA      NA
  1      2     1      1     111010   1  0  0     4     NA    400       5      9     NA      NA      NA      NA
  1      1     2      1     111010   1  0  0     6     60     NA      NA     10     14      NA      NA      NA
  1      2     2      1     111010   1  0  0    NA     80    800       7     11     15      NA      NA      NA

  1      1     3      2     111010   0  1  0     1      2      1       2      2      2      10      20      30
  1      2     3      2     111010   0  1  0     2     NA      1       2      2     NA      40      50      NA
  1      1     4      2     111010   0  1  0     1      1     NA      NA      2      2      70      80      90
  1      2     4      2     111010   0  1  0    NA      2      1       2      2     10     100     110     120

  1      1     1      3     010010   0  0  1    10     20     10     200    200    200       1       2       3
  1      2     1      3     001000   0  0  1    20     NA     10     200    200    200       4       5       9
  1      1     2      3     101000   0  0  1    10     10     NA     200    200    200       7       8      NA
  1      2     2      3     011010   0  0  1    NA     20     10     200    200    200      10      11      12

", sep = "", header = TRUE, stringsAsFactors = FALSE)
df

df2 <- df[df$region == 2, names(df) %in% c(paste("C", seq_along(1:3), sep=''))]
df2

#    C1  C2  C3
# 5  10  20  30
# 6  40  50  NA
# 7  70  80  90
# 8 100 110 120

— Марк Міллер
джерело

2

df2 <- df[!names(df) %in% c("c1", "c2")]

— Marvin W
джерело

-1

Я не можу відповісти на ваше запитання в коментарях через низький репутаційний рейтинг.

Наступний код дасть вам помилку, оскільки функція вставки повертає символьний рядок

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

Ось можливе рішення:

for(i in 1:length(var.out)) {

  text_to_source <- paste0 ("data$", var.out[i], "<- NULL") # Write a line of your
                                                  # code like a character string
  eval (parse (text=text_to_source)) # Source a text that contains a code
}

або просто зробіть:

for(i in 1:length(var.out)) {
  data[var.out[i]] <- NULL
}

— Андрій Т.
джерело

-1

df = mtcars

видалити vs і am, тому що вони категоричні. У наборі даних vs стовпчик номер 8, am - у графі 9

dfnum = df[,-c(8,9)]

— Абхілаш Понам
джерело