Я підкреслюю всі відповіді, що вже були, але давайте назвемо кота кішкою: у багатьох робочих просторах навряд чи неможливо переконати керівництво, що інвестиції в «екзотичні» програмні засоби (екзотичні для них, тобто) необхідні, не кажучи вже про те, щоб найняти когось, хто міг би встановити його і підтримувати. Я сказала досить багатьом клієнтам, що вони отримають велику користь від найму статистики з ретельним досвідом роботи з програмним забезпеченням та базами даних, але загальна відповідь "не може".
Тому поки це не відбудеться, є кілька простих речей, які ви можете зробити з Excel, які полегшать життя. І перше з цього - без сумніву, контроль над версіями. Більше інформації про контроль версій за допомогою Excel можна отримати тут .
Деякі речі щодо використання excel
Людям, які використовують EXCEL, дуже часто подобаються функції формули EXCEL. Тим не менш, це найважливіше джерело помилок на аркушах EXCEL та проблем при спробі читання у файлах EXCEL, наскільки мій досвід. Я відмовляюся працювати з аркушами, що містять формули.
Я також змушую всіх, з ким працюю, доставити аркуші EXCEL у простому форматі, тобто:
- Перший рядок містить назви різних змінних
- Електронна таблиця починається в комірці A1
- Всі дані складаються у стовпці, без перерв і без форматування.
- Якщо можливо, дані також зберігаються у форматі .csv. Не важко написати сценарій VBA, який буде витягувати дані, переформатувати їх і поміщати у файл .csv. Це також дозволяє краще контролювати версії, оскільки ви можете робити скидання .csv даних щодня.
Якщо є загальна структура, яку завжди мають дані, то, можливо, було б добре розробити шаблон із основними макросами VB для додавання даних та генерування набору даних для аналізу. Це взагалі дозволить уникнути того, що кожен працівник придумає власну "геніальну" систему зберігання даних, і це дозволяє вам написати свій код у відповідності до цього.
Це означає, що якщо ви можете переконати всіх використовувати SQL (і передній кінець для введення даних), ви можете зв’язати R безпосередньо з цим. Це значно підвищить продуктивність.
Структура даних та управління ними
Як правило, дані, що зберігаються в базах даних (або аркушах EXCEL, якщо вони наполягають), повинні бути абсолютним мінімумом, тобто будь-яка змінна, яка може бути обчислена за деякими іншими змінними, не повинна міститися в базі даних. Зауважте, іноді може бути корисним і зберігання цих похідних чи перетворених змінних, якщо розрахунки є втомливими і потребують тривалого часу. Але вони повинні зберігатися в окремій базі даних, при необхідності пов'язуватися з початковою.
Необхідно також думати про те, що вважається одним випадком (а отже, і одним рядом). Як приклад, люди прагнуть виробляти часові ряди, вносячи нову змінну для кожного моменту часу. Хоча це має сенс у EXCEL, читання цих даних вимагає певного перегортання матриці даних. Те ж саме для порівняння груп: повинен бути один індикатор групи та одна змінна відповіді, а не змінна відповіді для кожної групи. Таким чином можна також стандартизувати структури даних.
Останнє, з чим я часто стикаюся, - це використання різних показників. Довжини задаються в метрах або сантиметрах, температури в Цельцій, Кельвін або Фаренгейт, ... У будь-якому передньому кінці або будь-якому шаблоні слід вказати, якою є одиниця, в якій вимірюється змінна.
І навіть після всіх цих речей ви все ще хочете зробити крок контролю даних, перш ніж розпочати фактично аналіз. Знову ж таки, це може бути будь-який скрипт, який працює щодня (наприклад, протягом ночі) над новими записами, і що прапори негайно виникають (поза діапазоном, неправильний тип, відсутні поля ...), щоб їх можна було виправити якомога швидше. Якщо вам доведеться повернутися до запису, який було зроблено 2 місяці тому, щоб з’ясувати, що не так і чому, вам краще отримати кілька хороших «навичок Шерлока», щоб виправити це.
мої 2 копійки