Як я зазначив у своєму коментарі , у питанні недостатньо деталей, щоб сформулювати реальну відповідь. Оскільки вам потрібна допомога навіть у пошуку правильних термінів та формулюванні свого питання, я можу коротко висловитись у загальних рисах.
→ 2
У певному сенсі очищення даних можна здійснити в будь-якому програмному забезпеченні, а також можна виконати за допомогою Excel або за допомогою R. У обох варіантів будуть плюси і мінуси:
- Excel: Excel - це майже напевно найпоширеніший вибір для очищення даних (див. R fortunes # 59 pdf ). Статистики також вважають поганим вибором. Основна причина полягає в тому, що важко переконатися, що ви все схопили, або що ви ставились до всього однаково, і не було записано змін, які ви внесли, тому ви не зможете переглянути ці зміни пізніше. Перевагою використання Excel є те, що вам буде легше бачити, що ви робите, і вам не потрібно багато знати, щоб внести зміни. (Статистики вважатимуть останнє додатковою умовою .)
R: R вимагатиме крутої кривої навчання. Якщо ви не дуже знайомі з R або програмуванням, те, що можна зробити досить швидко і легко в Excel, буде неприємно намагатися спробувати R. З іншого боку, якщо вам колись доведеться це робити ще раз, це навчання було б добре витрачений час. Крім того, можливість запису та збереження вашого коду для очищення даних в R зменшить перелічені вище мінуси. Нижче наведено кілька посилань, які допоможуть вам розпочати роботу з цими завданнями на R:
Ви можете отримати багато корисної інформації про переповнення стека :
Quick-R також є цінним ресурсом:
Введення чисел у числовий режим:
Ще одне безцінне джерело для вивчення R - це веб-сайт зі статистикою UCLA :
Нарешті, ви завжди можете знайти багато інформації зі старого доброго Google:
- Цей пошук: очищення даних в r , містить ряд навчальних посібників (жоден з яких я не працював, FTR).
Оновлення: це поширене питання щодо структури вашого набору даних, коли у вас є кілька вимірювань на "навчальну одиницю" (у вашому випадку - особу). Якщо у вас є один рядок для кожної людини, ваші дані, як кажуть, містяться у "широкій" формі, але тоді ви обов'язково матимете кілька стовпців для змінної відповіді, наприклад. З іншого боку, у вас може бути лише один стовпець для змінної вашої відповіді (але в результаті є кілька рядків на людину), і в цьому випадку ваші дані, як кажуть, є у "довгій" формі. Переміщення між цими двома форматами часто називають "переформатуванням" ваших даних, особливо у світі.
- Стандартною функцією R для цього є «переформатування . На довідковому веб-сайті статистики UCLA є посібник із використання
reshape()
.
- Багато хто думає
reshape
, що важко працювати. Хедлі Вікхем створила пакет під назвою reshape2 , який призначений для спрощення процесу. Персональний сайт Хедлі для reshape2 знаходиться тут , огляд Quick-R знаходиться тут , і є хороший вид підручник тут .
- Питання щодо переформатування даних виникають дуже багато. Більшість із них збираються переходити від широкого до довгого, тому що, як правило, стикаються аналітики даних. Ваше запитання - про те, щоб перейти від довгого до широкого, що набагато рідше, але все ще існує багато тем, і ви можете переглянути їх за допомогою цього пошуку .
- Якщо ваше серце налаштоване на те, щоб зробити це за допомогою Excel, є нитка про те, щоб написати макрос VBA для Excel для копіювання функцій переформатування тут: melt / rehshape в Excel за допомогою VBA?
data.table
,dplyr
,plyr
, іreshape2
- я рекомендую уникати Excel і зведених таблиць , якщо це можливо.