Сума по кількох стовпцях за допомогою dplyr

Question 1

Моє запитання передбачає підсумовування значень у кількох стовпцях кадру даних та створення нового стовпця, що відповідає цьому підсумовуванню dplyr. Записи даних у стовпцях є двійковими (0,1). Я думаю про рядовий аналог функції summarise_eachабо mutate_eachфункції dplyr. Нижче наведено мінімальний приклад кадру даних:

library(dplyr)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))

> df
   x1 x2 x3 x4 x5
1   1  1  0  1  1
2   0  1  1  0  1
3   0 NA  0 NA NA
4  NA  1  1  1  1
5   0  1  1  0  1
6   1  0  0  0  1
7   1 NA NA NA NA
8  NA NA NA  0  1
9   0  0  0  0  0
10  1  1  1  1  1

Я міг би використати щось на зразок:

df <- df %>% mutate(sumrow= x1 + x2 + x3 + x4 + x5)

але це передбачало б виписування назв кожної з колонок. У мене близько 50 колонок. Крім того, імена стовпців змінюються на різних ітераціях циклу, в якому я хочу реалізувати цю операцію, тому я хотів би спробувати уникнути необхідності вказувати будь-які імена стовпців.

Як я можу зробити це найбільш ефективно? Будь-яка допомога буде вдячна.

Question 2

Як на рахунок

підсумуйте кожну колонку

df %>%
   replace(is.na(.), 0) %>%
   summarise_all(funs(sum))

підведіть підсумок кожного рядка

df %>%
   replace(is.na(.), 0) %>%
   mutate(sum = rowSums(.[1:5]))

Question 3

Якщо ви хочете підсумувати лише певні стовпці, я б використав щось на зразок цього:

library(dplyr)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))
df %>% select(x3:x5) %>% rowSums(na.rm=TRUE) -> df$x3x5.total
head(df)

Таким чином ви можете використовувати dplyr::selectсинтаксис.

Question 4

Я б використовував відповідність регулярних виразів для підсумовування змінних з певними іменами шаблонів. Наприклад:

df <- df %>% mutate(sum1 = rowSums(.[grep("x[3-5]", names(.))], na.rm = TRUE),
                    sum_all = rowSums(.[grep("x", names(.))], na.rm = TRUE))

Таким чином, ви можете створити більше однієї змінної як суму певної групи змінних вашого кадру даних.

Question 5

Я часто стикаюся з цією проблемою, і найпростіший спосіб зробити це - використовувати apply()функцію в mutateкоманді.

library(tidyverse)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))

df %>%
  mutate(sum = select(., x1:x5) %>% apply(1, sum, na.rm=TRUE))

Тут ви можете використовувати все, що завгодно, щоб вибрати стовпці, використовуючи стандартні dplyrтрюки (наприклад, starts_with()або contains()). Роблячи всю роботу в межах однієї mutateкоманди, ця дія може відбуватися де завгодно в межах dplyrпотоку кроків обробки. Нарешті, використовуючи apply()функцію, ви можете гнучко використовувати будь-який підсумок, який вам потрібен, включаючи власну функцію підсумовування.

В іншому випадку, якщо ідея використання функції, яка не має приріст, є непривабливою, тоді ви можете зібрати стовпці, підсумувати їх і, нарешті, приєднати результат назад до вихідного кадру даних.

df <- df %>% mutate( id = 1:n() )   # Need some ID column for this to work

df <- df %>%
  group_by(id) %>%
  gather('Key', 'value', starts_with('x')) %>%
  summarise( Key.Sum = sum(value) ) %>%
  left_join( df, . )

Тут я використовував starts_with()функцію для вибору стовпців і обчислював суму, і ви можете робити що завгодно зі NAзначеннями. Недоліком цього підходу є те, що, хоча він досить гнучкий, він насправді не вписується в dplyrпотік етапів очищення даних.

Question 6

Використання reduce()from purrrтрохи швидше, ніж, rowSumsбезумовно, швидше, ніж apply, оскільки ви уникаєте ітерації по всіх рядках і просто користуєтеся перевагами векторизованих операцій:

library(purrr)
library(dplyr)
iris %>% mutate(Petal = reduce(select(., starts_with("Petal")), `+`))

Дивіться це щодо термінів

Question 7

У новіших версіях dplyrви можете використовувати rowwise()поряд з c_acrossдля виконання агрегування по рядках для функцій, які не мають конкретних варіантів по рядках, але якщо варіант із рядками існує, це має бути швидше.

Оскільки rowwise()це лише спеціальна форма групування та зміна способу роботи дієслів, вам, швидше за все, захочеться спрямувати його, ungroup()виконавши свою операцію по рядках.

Щоб вибрати діапазон рядків:

df %>%
  dplyr::rowwise() %>% 
  dplyr::mutate(sumrange = sum(dplyr::c_across(x1:x5), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

Щоб вибрати рядки за типом:

df %>%
  dplyr::rowwise() %>% 
  dplyr::mutate(sumnumeric = sum(c_across(where(is.numeric)), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

У вашому конкретному випадку існує варіант із рядками, тому ви можете зробити наступне (зверніть увагу на використання acrossзамість цього):

df %>%
  dplyr::mutate(sumrow = rowSums(dplyr::across(x1:x5), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

Для отримання додаткової інформації див. Сторінку на rowwise .