Основні правила для "сучасної" статистики


85

Мені подобається книга G van Belle « Статистичні правила великого пальця» , і меншою мірою поширені помилки в статистиці (і як їх уникнути) від Філіппа I Good та Джеймса У. Хардіна. Вони стосуються загальних підводних каменів під час інтерпретації результатів експериментальних та спостережних досліджень та надають практичні рекомендації щодо статистичних висновків або дослідницького аналізу даних. Але я відчуваю, що "сучасних" настанов дещо бракує, особливо з постійно зростаючим використанням обчислювальної та надійної статистики в різних галузях, або впровадженням методів машинобудівного співтовариства, наприклад, клінічної біостатистики або генетичної епідеміології.

Окрім обчислювальних хитрощів або загальних підводних каменів у візуалізації даних, які можна було б вирішити в іншому місці, я хотів би запитати: Які основні правила ви рекомендуєте для ефективного аналізу даних? ( одне правило на відповідь, будь ласка ).

Я думаю про вказівки, які ви можете надати колезі, досліднику, що не має значного досвіду статистичного моделювання, або студенту середнього та прогресивного курсу. Це може стосуватися різних етапів аналізу даних, наприклад стратегій вибірки, вибору особливостей чи побудови моделі, порівняння моделей, післяоцінки тощо.

Відповіді:


62

Не забувайте перед початком аналізу провести перевірку основних даних. Зокрема, подивіться на графік розкиду кожної змінної, яку ви збираєтесь проаналізувати, відповідно до ідентифікаційного номера, дати / часу збору даних чи подібного. Око часто може підібрати зразки, які виявляють проблеми, коли зведена статистика не показує нічого незвичайного. І якщо ви збираєтеся використовувати журнал або інше перетворення для аналізу, також використовуйте його для графіку.


6
Я навчився цього важким шляхом. Двічі.
onestop

2
Так! Сім разів відміряй, один раз відріж. Будь ласка, подивіться на дані.
vqv

7
Візуальна перевірка даних може призвести до помилки I типу, якщо рішення приймаються після закінчення. Я схильний проводити підтверджуючі аналізи, оскільки вони були попередньо уточнені і включають результати, на які вплинуло обстеження, як дослідницький аналіз або аналіз чутливості.
AdamO

51

Тримайте аналіз відтворюваним. Рецензент, ваш начальник чи хтось інший, врешті-решт запитає вас, як саме ви досягли свого результату - можливо, через півроку і більше після того, як ви зробили аналіз. Ви не згадаєте, як ви очистили дані, який аналіз зробили, чому обрали конкретну модель, яку ви використовували ... І реконструкція всього цього - це біль.

Висновок: використовуйте якусь мову сценаріїв, додайте коментарі до своїх сценаріїв аналізу та зберігайте їх. Те, що ви використовуєте (R, SAS, Stata, що завгодно), є менш важливим, ніж мати повністю відтворюваний сценарій. Відхиліть середовища, в яких це неможливо чи незручно.


24
Якщо ви збираєтесь використовувати R, я рекомендую вставити свій R-код у документ Sweave, який створює ваш звіт. Таким чином R-код залишається у звіті.
Джон Д. Кук

36

Безкоштовного обіду немає

Значна частина статистичних збоїв створюється натисканням великої блискучої кнопки під назвою "Обчислити значимість" без урахування її тягаря прихованих припущень.

Повторіть

Навіть якщо задіяний один виклик до випадкового генератора, можливо, вам пощастить або пощастить, і тому перейдіть до неправильних висновків.


29

Одне правило на відповідь ;-)

Порадьтеся зі статистиком перед проведенням дослідження. Якщо можливо, перед подачею заявки на грант. Допоможіть йому / їй зрозуміти проблему, яку ви вивчаєте, отримайте його / її вклад щодо аналізу даних, які ви збираєтеся збирати, і подумайте, що це означає для вашого дизайну дослідження та вимог до даних. Можливо, хлопець із статистикою пропонує запропонувати зробити ієрархічну модель для обліку того, хто поставив діагноз пацієнтам, - тоді потрібно відстежити, хто кому поставив діагноз. Звучить тривіально, але набагато краще подумати над цим, перш ніж збирати дані (і не змогти зібрати щось вирішальне), ніж згодом.

Відповідна примітка: перед початком роботи зробіть аналіз потужності Ніщо так не засмучує, як не сплачувати бюджет на достатньо великий розмір вибірки. Замислюючись про те, який розмір ефекту ви очікуєте, пам’ятайте про упередженість публікації - розмір ефекту, який ви збираєтеся знайти, ймовірно, буде меншим, ніж той, який ви очікували з огляду на (упереджену) літературу.


28

Я хочу сказати своїм учням - створити відповідний графік для кожного p-значення. наприклад, розсіювач, якщо вони перевіряють кореляцію, бокові плити, якщо вони односторонні, ANOVA тощо.


28

Якщо ви вирішили між двома способами аналізу своїх даних, спробуйте обидва способи і подивіться, чи це має значення.

Це корисно у багатьох контекстах:

  • Перетворювати чи не перетворювати
  • Непараметричне або параметричне випробування
  • Співвідношення Спірмена або Пірсона
  • PCA або факторний аналіз
  • Чи використовувати середнє арифметичне чи надійну оцінку середнього
  • Чи включати коваріат чи ні
  • Використовувати видалення зі списку, парне видалення, імпутацію чи інший метод заміни відсутніх значень

Це не повинно позбавити когось від роздуму над питанням, але воно принаймні дає відчуття ступеня, наскільки суттєві висновки є надійними у виборі.


4
Це цитата? Мені просто цікаво, як спроби альтернативних процедур тестування (а не стратегій аналізу!) Можуть дещо не порушити контроль помилки типу I або початкового розрахунку потужності. Я знаю, що SAS систематично повертає результати параметричних і непараметричних тестів (принаймні, у двох зразках порівняння засобів та ANOVA), але мені це завжди є інтригуючим: чи не слід ми вирішувати, перш ніж побачити результати, який тест слід застосувати?
chl

4
@chl хороший момент. Я згоден, що вищезазначене правило може бути використане з неправильних причин. Тобто, випробовуючи речі декількома способами і лише повідомляючи результат, що дає більш приємну відповідь. Я вважаю, що правило є настільки ж корисним, як інструмент навчання аналітиків даних для того, щоб дізнатися про вплив рішень аналізу на предметні висновки. Я бачив, як багато студентів губляться з рішень, особливо там, де в літературі є змагальні поради (наприклад, перетворювати чи не перетворювати), які часто мають мінімальний вплив на змістовні висновки.
Джеромі Англім

1
@chl ні, це не цитата. Але я подумав, що було б добре відмежовувати правило від його обґрунтування та застережень. Я змінив її на жирний, щоб було зрозуміло.
Джеромі Англім

1
Гаразд, для мене є сенс спробувати різні перетворення і подивитися, чи це дає кращий спосіб обліку вивчених відносин; те, що я не розумію, - це спробувати різні стратегії аналізу, хоча це сучасна практика (але не повідомляється в опублікованих статтях :-), esp. коли вони покладаються на різні припущення (у EFA vs. PCA, ви припускаєте додатковий термін помилки; при непараметричному та параметричному тестуванні ви викидаєте частину припущень тощо). Але, я погоджуюсь, розмежування між дослідницьким та підтверджуючим аналізом не настільки чітке ...
chl

2
Мені це здається корисним лише для дослідницького аналізу або під час навчальних та перевірок. Вам завжди знадобиться остаточний крок перевірки, інакше ви можете обдурити себе певними вагомими результатами, які добре спрацюють, як тільки ви отримаєте бажану різницю відповідно до своїх "суб'єктивних" переконань . Хто повинен судити, який метод працює краще? Я особисто, якщо я сумніваюся в різних методах, то тестую його на модельованих даних, щоб перевірити такі речі, як дисперсія оцінок чи стійкість тощо.
Martijn Weterings

22

Запитуйте свої дані. У сучасну епоху дешевої оперативної пам’яті ми часто працюємо над великими обсягами даних. Одна помилка «жирного пальця» або «втрачений десятковий знак» може легко домінувати в аналізі. Без якоїсь основної перевірки правильності (або нанесення даних, як пропонують інші тут) можна витрачати багато часу. Це також пропонує використовувати деякі основні прийоми для "стійкості" для людей, що вижили.


2
Висновок: подивіться, чи хтось кодував пропущене значення як "9999" замість "NA". Якщо ваше програмне забезпечення використовує це значення за номіналом, це зіпсує ваш аналіз.
Стефан Коласа

21

Використовуйте програмне забезпечення, яке показує ланцюг програмування логіки від необроблених даних до кінцевих аналізів / результатів. Уникайте програмного забезпечення, такого як Excel, коли один користувач може допустити невпізнанну помилку в одній комірці, і це виявиться лише вручну.


1
VisTrails - це одна система, яка допомагає цьому процесу. (Я використовував лише домашню систему; загальні групові цілі важливіші за конкретний інструмент.)
деніс

18

Завжди запитуйте себе "що означають ці результати і як вони будуть використовуватися?"

Зазвичай метою використання статистики є допомога у прийнятті рішень у невизначеності. Тому важливо мати перед собою думку "Які рішення будуть прийняті в результаті цього аналізу і як цей аналіз впливатиме на ці рішення?" (наприклад, опублікувати статтю, рекомендувати використовувати новий метод, забезпечити фінансування $ X для Y, отримати більше даних, повідомити передбачувану кількість як E тощо etc.c ...)

Якщо ви не відчуваєте, що має бути прийняте якесь рішення, тоді варто задатися питанням, чому ви робите аналіз в першу чергу (оскільки аналіз зробити це досить дорого). Я думаю, що статистика є "неприємністю", оскільки вона є засобом для досягнення мети, а не самою метою. На мою думку, ми лише кількісно оцінюємо невизначеність, щоб ми могли використовувати це для прийняття рішень, які пояснюють цю невизначеність точно.

Я думаю, що це одна з причин, чому простота речей - це хороша політика в цілому, оскільки зазвичай набагато простіше пов'язати просте рішення з реальним світом (а отже, і з середовищем, в якому приймається рішення), ніж складне рішення . Також зазвичай простіше зрозуміти обмеження простої відповіді. Потім ви переходите до більш складних рішень, коли розумієте обмеження простого рішення та спосіб їх вирішення.


3
Я погоджуюся з усім, крім поняття, щоб все було просто. Для мене простота чи складність повинні бути функцією вартості неправильного рішення, яку ви красномовно пояснили. Простота може мати незначні витрати в одній області (наприклад, подання неправильної реклами клієнту) та дивовижну вартість в іншій (надання неправильного лікування пацієнту).
Thomas Speidel

18

Список може бути довгим, але зазначити лише декілька: (без конкретного порядку)

  1. P-значення НЕ є ймовірністю. Зокрема, це не ймовірність помилки типу I. Аналогічно, ІС не мають імовірнісної інтерпретації для даних даних. Вони застосовні для повторних експериментів.

  2. Проблема, пов'язана з дисперсією, домінує над ухилом більшість часу на практиці, тому упереджена оцінка з невеликою дисперсією краще, ніж неупереджена оцінка з великою дисперсією (більшу частину часу).

  3. Монтаж моделі - це ітераційний процес. Перед аналізом даних зрозумійте джерело даних та можливі моделі, що відповідають або не відповідають опису. Також спробуйте моделювати будь-які проблеми дизайну у вашій моделі.

  4. Скористайтеся інструментами візуалізації, подивіться на дані (на предмет можливих відхилень, очевидних тенденцій тощо тощо), щоб зрозуміти дані, перш ніж аналізувати їх. Використовуйте методи візуалізації (якщо можливо), щоб побачити, як модель підходить до цих даних.

  5. І останнє, але не в останню чергу, використовуйте статистичне програмне забезпечення для того, для чого вони створені (щоб полегшити ваше завдання з обчислення), вони не є заміною людського мислення.


14
Ваш пункт 1 невірний: значення P - це ймовірність отримання даних як крайніх, або більш екстремальних, враховуючи нульову гіпотезу. Наскільки мені відомо, це означає, що P є ймовірністю - умовною, але все ж ймовірністю. Твоє твердження правильне в тих обставинах, коли людина працює в парадигмі Неймана-Пірсона про помилки, але не працює в рамках фішерської парадигми, де значення P - це ідентичні докази проти нульової гіпотези. Це правда, що парадигми регулярно змішуються в непоєднувану мешанку, але обидві є "правильними", коли використовуються поодинці та неушкодженими.
Майкл Лев

2
Для довірчих інтервалів ви, знову ж таки, коректуєте лише в межах нейманських інтервалів довіри. Фішер (та інші перед ним) також розробляв і використовував речі, які можна було б інтерпретувати як довірчі інтервали, і існує цілком коректна інтерпретація таких інтервалів, спираючись на конкретний експеримент, що дає інтервал. На мою думку, вони набагато кращі перед Неймановими. Дивіться мою відповідь на питання Дискретні функції: Покриття інтервалу довіри? для більш детальної інформації: stats.stackexchange.com/questions/8844/…
Майкл Лев

@Michael ви маєте рацію, але давайте подивимось: у скільки разів правильний Null? Або краще: Чи може хтось довести, чи нуль правильний? Ми також можемо мати глибокі філософські дискусії з цього приводу, але це не в тому. У контролі якості повтори мають сенс, але в науці будь-яке правильне рішення повинно визначати дані.
suncoolsu

1
Фішер знав це (обумовлення спостережуваних даних і на цьому базується зауваження щодо контролю якості). На основі цього він створив багато зустрічних прикладів. Байезійці воюють з цим, скажімо, вже більше півстоліття.
suncoolsu

1
@Michael Вибачте, якщо я не був досить зрозумілий. Все, що я хотів сказати: P-значення - це ймовірність ТІЛЬКИ, коли нуль є істинним, але більшість випадків null НЕ істинний (як у: ми ніколи не очікуємо, що буде істинним; ми вважаємо, що це правда, але наше припущення практично невірно.) У випадку, якщо вам це цікаво, я можу вказати на деяку літературу, що обговорює цю ідею більш детально. μ=0
suncoolsu

13

Для організації / управління даними переконайтеся, що при створенні нових змінних у наборі даних (наприклад, обчисленні індексу маси тіла за висотою та вагою) оригінальні змінні ніколи не видаляються. Неруйнівний підхід найкращий з точки зору відтворюваності. Ніколи не знаєш, коли ти можеш неправильно ввести команду і згодом потрібно буде повторно змінити генерацію. Без оригінальних змінних ви втратите багато часу!


11

Думайте важко про що лежить в основі генерування даних процесу (ДГП). Якщо модель, яку ви хочете використовувати, не відображає DGP, вам потрібно знайти нову модель.


Як ти знаєш, як ти можеш знати, що таке DGP. Наприклад, я веду часові ряди в тій галузі, де мені ще не зрозуміла добре розроблена теорія (чому відбуваються певні види державних витрат). Я не думаю, що в цьому випадку можна дізнатися справжній процес.
користувач54285

8

Для гістограм добре правило великого розміру для кількості відходів у гістограмі :

квадратний корінь кількості точок даних


6

Незважаючи на все більшу кількість наборів даних та більш потужне програмне забезпечення, переналагодження моделей становить велику небезпеку для дослідників, особливо тих, хто ще не був спалений від надмірного розміщення. Надмірна відповідність означає, що ви встановили щось складніше, ніж ваші дані та сучасний стан. Як любов або красу, важко визначити, не кажучи вже про те, щоб визначити формально, але простіше розпізнати.

Мінімальне правило - 10 точок даних для кожного параметра, оціненого для чогось подібного до класичної регресії, і слідкуйте за наслідками, якщо ви їх ігноруєте. Для інших аналізів вам потрібно набагато більше, щоб зробити хорошу роботу, особливо якщо в даних є рідкісні категорії.

Навіть якщо ви можете легко встановити модель, вам слід постійно турбуватися про те, що це означає і наскільки вона відтворюється навіть за дуже схожим набором даних.


Це зазвичай сприймається як правило для моделей, де реакція умовно нормальна. В інших випадках це занадто ліберально. Наприклад, для двійкової класифікації відповідним правилом було б 15 спостережень у менш поширеній категорії для кожної змінної; & для аналізу виживання, це буде 10 подій (тобто не цензурованих даних) для кожної змінної.
gung

Я згоден. Я редагую, але чому б не опублікувати власне правило разом з розширеним коментарем.
Нік Кокс

1
Ви повинні виділити останнє речення "Навіть якщо ви можете легко встановити модель, вам слід постійно турбуватися про те, що це означає і наскільки воно відтворюється навіть за дуже схожим набором даних".
Martijn Weterings

6

У проблемі прогнозування (тобто, коли потрібно прогнозувати задану , з використанням навчального набору ) , правило великого пальця (робити перед будь-яким складним моделюванням) ( Y t , X t ) t > T ( Y 1 , X 1 ) , , ( Y T , X T )Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Кліматологія ( прогноз за середнім спостережуваним значенням для навчального набору, можливо, шляхом видалення очевидних періодичних зразків)Yt+h
  2. Постійність ( прогноз за останнім спостережуваним значенням: ). Y tYt+hYt

Те, що я часто роблю зараз як останній простий орієнтир / правило великого пальця, використовує randomForest ( ~ , data = learningSet) в програмному забезпеченні R. Це дає вам (з 2 рядками коду в R) перше уявлення про те, чого можна досягти без будь-якого моделювання. Y t + X tYt+hYt+Xt


5

Якщо модель не конвергується легко і швидко, це може бути помилкою програмного забезпечення. Однак набагато частіше зустрічається те, що ваші дані не підходять для моделі або модель не підходить для даних. Можливо, важко сказати, які і емпірики, і теоретики можуть мати різні погляди. Але предметне мислення, по-справжньому дивлячись на дані та постійно думаючи про інтерпретацію моделі, допомагають наскільки це все може. Перш за все, спробуйте більш просту модель, якщо складна не зблизиться.

Ніякого виграшу в примусовій конвергенції чи в оголошенні перемоги та отриманні результатів після багатьох ітерацій, але перш ніж ваша модель справді сходилася. У кращому випадку ви обманюєте себе, якщо це робите.


"дійсно дивлячись на дані", було б так приємно, коли ми отримуємо НН, який робить це для нас.
Martijn Weterings

Це називалося JWT.
Нік Кокс

5

У регресії інструментальних змінних завжди перевіряйте спільну значимість ваших інструментів. Правило Staiger-Stock визначає, що F-статистика менше 10 викликає занепокоєння і вказує на те, що ваші інструменти можуть бути слабкими, тобто вони недостатньо співвіднесені з ендогенною змінною. Однак це автоматично не означає, що F вище 10 гарантує міцні інструменти. Staiger and Stock (1997) показали, що методи "інструментальних змінних", як 2SLS, можуть бути погано зміщеними у "малих" зразках, якщо інструменти лише слабко співвідносяться з ендогенною змінною. Їх прикладом було дослідження Ангріста і Крюгера (1991), які мали понад 300 000 спостережень - тривожний факт щодо поняття "малих" зразків.


Я додав посилання на статтю, але я вважаю, що ця відповідь не потребує подальшого форматування. Мені було важко підкреслити «правило великого пальця», засноване на скануванні статті, і ця відповідь не дуже інтуїтивно зрозуміла.
Martijn Weterings

3

Для вибору інформаційних критеріїв немає критеріїв.

Після того, як хтось каже щось на кшталт "IC? Це вказує на це, але, як відомо, часто дають неправильні результати" (де? Будь-яка літера, що вам подобається), ви знаєте, що вам доведеться також подумати про модель і особливо, чи це робить вона науковий чи практичний сенс.

Жодна алгебра не може цього сказати.


2

Я десь прочитав це (напевно, на перехресній валідації), і я не зміг його знайти ніде, тому тут іде ...

Якщо ви виявили цікавий результат, напевно, це неправильно.

Дуже легко захоплюватися перспективою приголомшливого p-значення або майже ідеальною помилкою перехресної перевірки. Я особисто екстатично представив колегам дивовижні (помилкові) результати лише для того, щоб їх відкликати. Найчастіше, якщо це виглядає занадто добре, щоб бути правдою ...

'taint true. «Талію взагалі правда.


2

Постарайтеся бути доблесними, а не доброчесними. Тобто, не дозволяйте дрібним ознакам нестандартності, незалежності чи нелінійності тощо блокувати вашу дорогу, якщо такі ознаки потрібно нехтувати, щоб дані говорили голосно та чітко . - Датською мовою 'dristig' проти 'dydig' є прикметниками.


1

При аналізі поздовжніх даних обов'язково переконайтеся, що змінні кодуються однаково у кожному часовому періоді.

Під час написання моєї дисертації, яка спричиняла аналіз вторинних даних, було тиждень або близько того, що було здивовано 1-одиничним зміщенням середніх показників депресії за інакше стабільним середнім роком: виявилось, що це був один із років у моєму набір даних, елементи масштабу для затвердженого інструменту були закодовані 1–4 замість 0–3.


1

Ваша гіпотеза повинна керувати вибором моделі, а не навпаки.

Перефразовуючи Маслоу, якщо ви молоток, все виглядає як цвях. Конкретні моделі оснащені жалюзі та припущеннями про світ, побудований прямо: наприклад, нединамічні моделі задушуються від зворотного зв'язку з лікуванням та результатами.


1

Використовуйте моделювання, щоб перевірити, де структура вашої моделі може створювати "результати", які є просто математичними артефактами припущень вашої моделі.

Виконайте свій аналіз на передосліджених змінних або на імітованих змінних, які, як відомо, непов'язані між собою. Чи багато разів це чи порівнюйте усереднені оцінки балів (та достовірність чи достовірні інтервали) з результатами, отриманими за фактичними даними: чи всі вони такі різні?


0

Я аналітик даних, а не статистик, але це мої пропозиції.

1) Перш ніж аналізувати дані, переконайтесь, що припущення вашого методу є правильними. Після того, як ви побачите результати, їх важко забути навіть після виправлення проблем та зміни результатів.

2) Це допомагає дізнатися ваші дані. Я запускаю часові ряди і отримав результат, який мало сенсу з огляду на дані останніх років. Я переглянув методи з огляду на це і виявив, що усереднення моделей методом спотворює результати за один період (і відбувся структурний розрив).

3) Будьте уважні до правил. Вони відображають досвід окремих дослідників з їх власних даних, і якщо їх область сильно відрізняється від вашої, їх висновки можуть бути невірними для ваших даних. Більше того, і це було для мене шоком, статистики часто не погоджуються щодо ключових моментів.

4) Спробуйте проаналізувати дані різними методами і побачити, чи результати схожі. Зрозумійте, що жоден метод не є ідеальним, і будьте уважні, щоб перевірити, коли ви можете порушити припущення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.