Виконання статистичного тесту після візуалізації даних - драгування даних?


31

Я запропоную це питання на прикладі.

Припустимо, у мене є набір даних, такий як набір даних про ціни на житло в Бостоні, в якому я маю безперервні і категоричні змінні. Тут ми маємо змінну «якість» від 1 до 10 та ціну продажу. Я можу розділити дані на будинки "низької", "середньої" та "високої" якості (довільно) створюючи відсіки для якості. Потім, використовуючи ці угруповання, я можу побудувати гістограми ціни продажу один проти одного. Так:

якість житла та ціна продажу

Тут "низький" - , а "високий" - > 7 за оцінкою "якість". Зараз у нас розподіл продажних цін для кожної з трьох груп. Зрозуміло, що серед будинків середньої та високої якості є різниця у центрі розташування. Тепер, зробивши все це, я думаю, "Гм. Здається, різниця в центрі розташування! Чому я не проведу тест на засоби?". Потім я отримую значення p, яке, здається, правильно відкидає нульову гіпотезу про відсутність різниці в засобах.3>7

А тепер припустимо, що я не мав на увазі тестування цієї гіпотези, поки я не склав дані.

Це днопоглиблення?

Це все-таки днопоглинання даних, якщо я подумав: "Гм, я обдячуюся, що будинки більш високої якості коштують дорожче, оскільки я людина, яка раніше жила в будинку. Я збираюся описувати дані. А-а-а! Виглядає по-іншому! Час до t-тесту! "

Зрозуміло, це не драгування даних, якщо набір даних був зібраний з наміром перевірити цю гіпотезу з початку роботи. Але часто доводиться працювати з наданими нам наборами даних, і їм кажуть «шукати шаблони». Як хтось уникає драгування даних, маючи на увазі це неясне завдання? Створити набори для тестування даних? Чи «візуалізація» вважається «придиркою» до можливості перевірити запропоновану даними гіпотезу?

Відповіді:


27

Коротко не погоджуючись з / надаючи контрапункт на відповідь @ ingolifs: так, візуалізація ваших даних є надзвичайно важливою. Але візуалізація перед тим, як визначитися з аналізом, веде вас до Гельмана та Саду Локена розгалужуючими стежками . Це не те саме, що драгування даних або злому даних, частково за допомогою намірів (GoFP, як правило, є добронамереним) і частково тому, що ви не можете виконати більше одного аналізу. Але це форма стеження: тому що ваш аналіз дані-залежні, це може привести вас до помилкових або самовпевненим висновків.

Вам слід певним чином визначити, який саме ваш передбачуваний аналіз (наприклад, "високоякісні будинки повинні бути вищими за ціною") і записати його (або навіть офіційно попередньо зареєструвати його), перш ніж переглядати ваші дані (це нормально, щоб переглянути змінні прогнозувальника в заздалегідь, просто не змінні (-и) відповідей, але якщо у вас справді немає апріорних ідей, ви навіть не знаєте, які змінні можуть бути предикторами, а які - відповідями; якщо ваші дані пропонують якісь різні або додаткові аналізи, то у вашій реєстрації може бути вказано як те, що ви мали намір зробити спочатку, так і те, що (і чому) ви в кінцевому підсумку це робили.

Якщо ви справді займаєтесь чистим дослідженням (тобто у вас немає апріорних гіпотез, ви просто хочете побачити, що є в даних):

  • Ваші думки щодо пробування зразка для підтвердження хороші.
    • У моєму світі (я не працюю з величезними наборами даних) втрата роздільної здатності через менший розмір вибірки буде агонізуючою
    • Ви повинні бути обережними у виборі вибірки, якщо ваші дані структуровані будь-яким чином (географічно, часовий ряд тощо) тощо. Підгрупування, ніби дані в iid, призводить до надмірної впевненості (див. Методи Венгера та Олдена в екології та еволюції 2012), тому ви можете вибрати географічні одиниці, щоб протриматися (див. Для прикладу DJ Harris Methods в екології та еволюції 2015)
  • Ви можете визнати, що ви суто дослідницькі. В ідеалі ви б повністю відмовились від p-значень у цьому випадку, але, принаймні, скажете своїй аудиторії, що ви блукаєте в GoFP, дає їм знати, що вони можуть приймати p-значення з величезними зернами солі.

Моя улюблена посилання на "безпечні статистичні практики" - стратегії моделювання регресії Гаррелла (Спрингер); він викладає кращі практики для висновку проти прогнозування та розвідки суворим, але практичним способом.


4
Дуже добре кажучи! Я очікую, що люди звернуться до цієї відповіді в майбутньому.
Великий38

Саме таку відповідь я шукав, дякую. Я відповів на цю відповідь як відповідь. Чи знаєте ви якісь ресурси, які навчають безпечних статистичних практик? Можливо, трохи ширший за обсягом, ніж (відмінні) статті, які ви опублікували
Marcel

Відмінна відповідь (+1), але я не погоджуюся з тим, що це не залежно від даних. умисел не має значення - ефект однаковий.
Відновіть Моніку

Насправді я вважаю, що варто зберігати відмінність між різними формами сопіння. Дноуглублення, можливо, є більш серйозним, оскільки воно включає (1) кілька явних тестів, а не декілька неявних тестів та (2) умовне / тривале тестування до досягнення р <0,05 (або будь-якого іншого). Якісний ефект, безумовно, однаковий.
Бен Болкер

11

Візуалізація даних є невід'ємною частиною аналізу, і одне з перших, що слід зробити з незнайомим набором даних. Швидке очне яблуко даних може повідомити кроки, які слід зробити далі. Дійсно, слід дивитись на графік, що кошти різні, і я не впевнений, чому T-тест був необхідний для підтвердження цього - засоби достатньо відокремлені, що сам графік є всіма доказами, які я б вимагають.

R2 незалежно від того припущення є відповідними. Виявлення даних не є чимось, що ви можете легко зробити випадково.

Я думаю, що тут є глибше питання. Яким чином ви підтримуєте дзен-подібний нейтралітет та уникаєте упередженості при роботі з даними науковим чином? Відповідь, ви цього не робите. А точніше, не потрібно. Формування переслідувань та гіпотез та побудова розумової розповіді про те, що означають ці дані, є цілком природним та прийнятним за умови, що ви знаєте, що це робите, і подумки готові переглянути всі ці гіпотези, зіткнувшись із суперечливими даними.


7
Візуалізація даних перед запуском тестів може бути нешкідливою в цьому конкретному випадку. Однак, далі буде візуалізуватися інший вимір ... і ще один ... і подивитися на розсіювачі ... і досить скоро знайдеться щось, що виглядає "достатньо очевидним", щоб формальний тест і розповідь були природними. О так, драгування даних - це, безумовно, те, що ви можете легко зробити випадково. Дивіться « Гельманський сад доріжок» .
S. Kolassa - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.