Запитання з тегом «dplyr»

Використовуйте цей тег для запитань щодо функцій із пакету dplyr, таких як group_by, підсумовуйте, фільтруйте та виберіть.

5
Зберіть кілька наборів стовпців
У мене є дані інтернет-опитування, де респонденти переглядають цикл питань 1-3 рази. Огляд програмного забезпечення (Qualtrics) записує ці дані в кілька стовпчиків, тобто, В3.2 в огляді матиме стовпці Q3.2.1., Q3.2.2.і Q3.2.3.: df <- data.frame( id = 1:10, time = as.Date('2009-01-01') + 0:9, Q3.2.1. = rnorm(10, 0, 1), Q3.2.2. = rnorm(10, …
108 r  reshape  dplyr  qualtrics  tidyr 

6
Сума по кількох стовпцях за допомогою dplyr
Моє запитання передбачає підсумовування значень у кількох стовпцях кадру даних та створення нового стовпця, що відповідає цьому підсумовуванню dplyr. Записи даних у стовпцях є двійковими (0,1). Я думаю про рядовий аналог функції summarise_eachабо mutate_eachфункції dplyr. Нижче наведено мінімальний приклад кадру даних: library(dplyr) df=data.frame( x1=c(1,0,0,NA,0,1,1,NA,0,1), x2=c(1,1,NA,1,1,0,NA,NA,0,1), x3=c(0,1,0,1,1,0,NA,NA,0,1), x4=c(1,0,NA,1,0,0,NA,0,0,1), x5=c(1,1,NA,1,1,1,NA,1,0,1)) > df …
98 r  dplyr 

6
фільтр для повних випадків у data.frame за допомогою dplyr (видалення з урахуванням регістру)
Чи можна відфільтрувати data.frame для повних випадків за допомогою dplyr? complete.casesЗі списком усіх змінних працює, звичайно. Але це а) багатослівно, коли існує багато змінних, і б) неможливо, коли імена змінних невідомі (наприклад, у функції, яка обробляє будь-який data.frame). library(dplyr) df = data.frame( x1 = c(1,2,3,NA), x2 = c(1,2,NA,5) ) df …
97 r  dplyr  magrittr 

4
dplyr резюме: еквівалент “.drop = FALSE” для збереження груп з нульовою довжиною на виході
При використанні summariseз plyr«S ddplyфункції, порожні категорії видаляються за замовчуванням. Ви можете змінити цю поведінку, додавши .drop = FALSE. Однак це не працює при використанні summariseз dplyr. Чи є інший спосіб зберегти порожні категорії в результаті? Ось приклад з підробленими даними. library(dplyr) df = data.frame(a=rep(1:3,4), b=rep(1:2,6)) # Now add an …
97 r  dplyr  plyr  tidyr 

6
dplyr: “Помилка в n (): функцію не слід викликати безпосередньо”
Я намагаюся відтворити один із прикладів у пакеті dplyr, але отримую це повідомлення про помилку. Я очікую побачити новий стовпець n, вироблений з частотою кожної комбінації. Що я пропускаю? Я потрійно перевірив, чи завантажений пакет. library(dplyr) # summarise peels off a single layer of grouping by_vs_am <- group_by(mtcars, vs, am) …

8
R dplyr: Відкиньте кілька стовпців
У мене є фрейм даних та список стовпців у цьому фреймі даних, які я хотів би скинути. Давайте використаємо irisнабір даних як приклад. Я хотів би кинути Sepal.Lengthі Sepal.Widthі використовувати тільки залишилися стовпці. Як це зробити, використовуючи пакунок selectабо select_з нього dplyr? Ось те, що я намагався дотепер: drop.cols <- …
96 r  dplyr 

1
Як інтерпретувати повідомлення dplyr `summarize ()` перегрупуючи вихід на 'x' (перевизначити аргументом `.groups`)?
Я почав отримувати нове повідомлення (див. Заголовок допису) під час запуску group_by та резюме () після оновлення до версії розробки dplyr 0.8.99.9003. Ось приклад для відтворення результату: library(tidyverse) library(hablar) df <- read_csv("year, week, rat_house_females, rat_house_males, mouse_wild_females, mouse_wild_males 2018,10,1,1,1,1 2018,10,1,1,1,1 2018,11,2,2,2,2 2018,11,2,2,2,2 2019,10,3,3,3,3 2019,10,3,3,3,3 2019,11,4,4,4,4 2019,11,4,4,4,4") %>% convert(chr(year,week)) %>% mutate(total_rodents = …
96 r  dplyr  summarize 

5
R Умовна оцінка при використанні оператора трубопроводу%>%
При використанні оператора трубопроводу %>% з пакетами , такими як dplyr, ggvis, dychartsі т.д., як я роблю крок умовно? Наприклад; step_1 %>% step_2 %>% if(condition) step_3 Здається, ці підходи не працюють: step_1 %>% step_2 if(condition) %>% step_3 step_1 %>% step_2 %>% if(condition) step_3 Є довгий шлях: if(condition) { step_1 %>% …
94 r  dplyr  ggvis  magrittr 

6
Отримання найвищих значень за групами
Ось зразок кадру даних: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Я хочу, щоб підмножина dмістила рядки з першими 5 значеннями xдля кожного значення grp. Використовуючи base-R, мій підхід буде приблизно таким: ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- lapply(splits, …
93 r  data.table  dplyr 

4
dplyr на data.table, чи справді я використовую data.table?
Якщо я використовую синтаксис dplyr поверх таблиці даних , чи отримую я всі переваги швидкості роботи таблиці даних, одночасно використовуючи синтаксис dplyr? Іншими словами, чи неправильно я використовую таблицю даних, якщо я запитую її із синтаксисом dplyr? Або мені потрібно використовувати чистий синтаксис даних, щоб використати всю його силу. Заздалегідь …
91 r  data.table  dplyr 

2
Як вказати імена стовпців для x та y при об'єднанні в dplyr?
У мене є два кадри даних, до яких я хочу приєднатися за допомогою dplyr. Один - це кадр даних, що містить імена. test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"), stringsAsFactors = FALSE) Інший фрейм даних містить очищену версію корпусу імен Кантровіца, що визначає стать. Ось мінімальний приклад: kantrowitz …
89 r  join  left-join  dplyr 

3
dplyr мутувати з умовними значеннями
У великому фреймі даних ("myfile") з чотирма стовпцями я повинен додати п'ятий стовпець зі значеннями, умовно на основі перших чотирьох стовпців. Віддайте перевагу відповідям із dplyrі mutate, головним чином, через швидкість у великих наборах даних. Мій фрейм даних виглядає так: V1 V2 V3 V4 1 1 2 3 5 2 …
87 r  dplyr  mutate 

12
dplyr мутує / замінює кілька стовпців у підмножині рядків
Я в процесі випробування робочого процесу на основі dplyr (а не використовую в основному data.table, до якого я звик), і я зіткнувся з проблемою, через яку не можу знайти рівнозначного рішення dplyr . Я зазвичай стикаюся зі сценарієм, коли мені потрібно умовно оновити / замінити кілька стовпців на основі однієї …
85 r  data.table  dplyr 

4
Виберіть стовпці на основі відповідності рядків - dplyr :: select
У мене є фрейм даних ("дані") з великою кількістю стовпців. Деякі стовпці містять певний рядок ("рядок_пошуку"). Як я можу використати dplyr::select()для надання мені підмножини, що включає лише стовпці, що містять рядок? Я намагався: # columns as boolean vector select(data, grepl("search_string",colnames(data))) # columns as vector of column names names select(data, colnames(data)[grepl("search_string",colnames(data))]) …
83 r  regex  dplyr 

4
Підрахуйте кількість рядків за групою, використовуючи dplyr
Я використовую mtcarsнабір даних. Я хочу знайти кількість записів для певної комбінації даних. Щось дуже схоже на count(*)речення group by у SQL. ddply()від plyr працює на мене library(plyr) ddply(mtcars, .(cyl,gear),nrow) має вихід cyl gear V1 1 4 3 1 2 4 4 8 3 4 5 2 4 6 3 …
83 r  dplyr  count  plyr 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.