Чому надійні (і стійкі) статистичні дані не замінили класичні методи?


82

При вирішенні бізнес-проблем із використанням даних прийнято вважати, що принаймні одне ключове припущення про те, що класична статистика недостатку не є дійсною. Більшість часу ніхто не намагається перевірити ці припущення, щоб ви насправді ніколи не знали.

Наприклад, що так багато загальних веб-метрик є "довгохвостими" (відносно звичайного розповсюдження), на сьогоднішній день настільки добре зафіксовано, що ми сприймаємо це як належне. Інший приклад, інтернет-спільноти - навіть у громадах з тисячами членів, добре підтверджено, що, безумовно, найбільша частка внеску в / у участі в багатьох з цих спільнот припадає на незначну групу "супер-учасників". (Наприклад, кілька місяців тому, відразу після того, як API SO став доступний у бета-версії, член StackOverflow опублікував короткий аналіз даних, зібраних за допомогою API; його висновок - менше ніж один відсоток членів ПП припадає на більшість діяльність на СО (імовірно, задаючи питання та відповідаючи на них), ще 1-2% припадає на решту, а переважна більшість членів нічого не робить).

Подібні розподіли - знову-таки частіше правило, а не виняток - часто найкраще моделюють за допомогою функції щільності закону потужності . Для таких типів розподілів проблематично застосувати навіть центральну граничну теорему.

Отже, зважаючи на велику кількість таких груп, що цікавить аналітиків, і з огляду на те, що класичні моделі на цих даних демонструють погано, і враховуючи, що надійні та стійкі методи існують протягом певного часу (принаймні 20 років, я вважаю) - чому вони не використовуються частіше? (Мені також цікаво, чому я не використовую їх частіше, але це насправді не питання для CrossValidated .)

Так, я знаю, що існують розділи підручника, присвячені повністю надійній статистиці, і я знаю, що є (кілька) пакетів R ( robustbase - це той, з ким я знайомий і використовую) тощо.

І все ж, враховуючи очевидні переваги цих методів, вони, очевидно, є кращими інструментами для роботи - чому їх не використовують набагато частіше ? Чи не слід очікувати, що надійні (і стійкі) статистичні дані, які використовуються набагато частіше (можливо, навіть імовірно), порівняно з класичними аналогами?

Єдине істотне (тобто технічне) пояснення, яке я чув, це те, що надійні методи (так само як і для стійких методів) не мають сили / чутливості класичних методик. Я не знаю, чи справді це правда в деяких випадках, але я знаю, що це неправда в багатьох випадках.

Заключне слово передбачення: так, я знаю, що на це запитання немає жодної наочно вірної відповіді; дуже мало запитань на цьому Сайті. Більше того, це питання є справжнім запитом; це не привід для просування точки зору - у мене немає такої точки зору, це лише питання, на яке я сподіваюся на проникливі відповіді.


12
Чорний лебедь Насіма Ніколаса Талеба пояснює, чому у фінансовому світі використовували прості моделі та небезпеку, до якої це призвело. Особливою помилкою є прирівнення дуже низьких ймовірностей до нуля і сліпо застосування нормального розподілу в управлінні ризиками!
Джеймс

9
Тести, що спираються на багато припущень, є більш потужними, коли ці припущення будуть задоволені. Ми можемо перевірити значущість відхилення, якщо припустити, що спостереження є IID Гауссом, що дає значення як статистичне. Менш обмежувальний набір припущень говорить нам про використання медіани. Можна піти далі і припустити, що спостереження співвідносяться, щоб отримати ще більшу надійність. Але кожен крок зменшує потужність нашого тесту, і якщо ми взагалі не робимо жодних припущень, наш тест марний. Надійні тести неявно роблять припущення щодо даних і кращі за класичні лише тоді, коли ці припущення відповідають реальності
Ярослав Булатов

Відповіді:


69

Дослідники хочуть невеликих p-значень, і ви можете отримати менші p-значення, якщо використовувати методи, які роблять більш сильні припущення щодо розподілу. Іншими словами, ненадійні методи дозволяють публікувати більше робіт. Звичайно, більшість цих робіт можуть бути помилковими, але публікація - це публікація. Це цинічне пояснення, але воно іноді справедливо.


4
"Іноді" - заниження ... логіка авторів часто не така пряма, але сценарій стимулу / винагороди такий, що люди будуть робити це як умова
Джон

2
Я не вважаю, що дослідники є нечесними, як діяти через незнання. Вони не розуміють, що означає статистика чи які припущення вони вимагають, але, як ви сказали, вони чітко розуміють стимул / винагороду: p> 0,05 => жодної публікації.
Джон Д. Кук

10
Ви також повинні представити щось таке, що розуміють ті, хто "при владі" (керівники, наглядові органи, рецензенти). Тому він повинен бути загальною мовою, яка розвивається досить повільно, оскільки люди, як правило, старші та стійкіші до змін, значною мірою, оскільки це може привести до несанкціонування їх кар'єри досі!
Джеймс

12
Влучне зауваження. "Я розумію p-значення. Просто дайте мені p-значення." Як не дивно, вони, напевно, не розуміють p-значень, але це інша справа.
Джон Д. Кук

2
Я не вірю, що це категорично вірно. Принаймні, я чув, що сучасна непараметрика часто жертвує дуже малою силою, якщо така є. AFAIK, втрата потужності найбільш яскраво виражена в тестах, що включають перетворення рангів, які навряд чи є повсюдними серед надійних методів.
Нік Стаунер

42

Тож «класичні моделі» (якими б вони не були - я припускаю, що ви маєте на увазі щось на зразок простих моделей, викладених у підручниках та оцінених М.Л.), не спрацьовують у деяких, можливо, багатьох реальних наборах даних.

Якщо модель не вдається, тоді є два основні підходи до її виправлення:

  1. Зробіть менше припущень (менше моделі)
  2. Зробіть більше припущень (більше моделі)

Надійна статистика, квазіімовірність та підходи GEE застосовують перший підхід, змінюючи стратегію оцінки на таку, де модель не містить усіх точок даних (надійна) або не потребує характеристики всіх аспектів даних (QL та GEE).

Альтернативою є спробувати побудувати модель, яка явно моделює джерело забруднюючих точок даних або аспекти оригінальної моделі, яка здається помилковою, зберігаючи метод оцінки таким же, як і раніше.

Деякі інтуїтивно віддають перевагу першій (це особливо популярно в економіці), а інші інтуїтивно віддають перевагу другому (це особливо популярно серед байєсів, які, як правило, щасливіші зі складнішими моделями, особливо, коли вони зрозуміють, що вони будуть використовувати засоби моделювання для умовивод все одно).

Друга стратегія належить до припущень розподілу жиру, наприклад, використовуючи негативний біном, а не пуассон або t, а не звичайний. Більшість речей, позначених "надійною статистикою", належать до першої стратегії.

З практичної точки зору, оцінювання першої стратегії реально складних проблем здається досить важким. Не те, що це причина цього не робити, але це, мабуть, пояснення, чому це робиться не дуже часто.


4
+1. Дуже хороше пояснення. Я також думаю, що деякі "надійні" методи є скоріше ad hoc (усіченими засобами), і що "надійний" пов'язаний з певним аспектом методу і не є загальною якістю, але багато людей трактують "надійний", щоб означати "я не "Не потрібно хвилюватися за мої дані, оскільки мій метод надійний".
Уейн

Чудова відповідь. Мене хвилює те, що так багато відповідей зосереджено на труднощах розуміння надійної статистики або на стимулах ігнорування порушення припущень. Вони ігнорують людей, які знають, що є випадки, коли потрібні надійні статистичні дані і коли їх немає.
Кенджі

29

Я б припустив, що це відставання в навчанні. Більшість людей або навчаються статистиці в коледжі чи університеті. Якщо статистика - це не ваша перша ступінь, а натомість ви отримали ступінь математики чи інформатики, ви, ймовірно, покриваєте лише основні модулі статистики:

  1. Ймовірність
  2. Тестування гіпотез
  3. Регресія

Це означає, що стикаючись з проблемою, ви намагаєтеся використовувати те, що знаєте, для вирішення проблеми.

  • Дані не звичайні - приймайте журнали.
  • Дані мають дратівливі люди, що видають себе - видаліть їх

Якщо ви не натрапите на щось інше, то важко зробити щось краще. За допомогою Google дуже важко знайти щось, якщо ви не знаєте, як це називається!

Я думаю, що з усіма методиками пройде деякий час, перш ніж нові методики відфільтруються. Скільки часу тестування стандартних гіпотез було частиною стандартної програми статистики?

До речі, зі ступенем статистики все ще буде відставання в навчанні - лише коротше!


4
Але це викликає цікаву педагогічну проблему, принаймні в психології, тому що, наскільки я знаю, більшість вступних книг статистики, які використовуються в моїй галузі, насправді не обговорюють надійних заходів, окрім як сторону.
russellpierce

3
Це дуже правда, і також в психології існує прикрою плутаниною між непараметричним і ненормальним, що, здається, заважає зрозуміти.
richiemorrisroe

2
Деякі з нас психологи просто розгублені у всьому статистичному! :)
Нік Стаунер

21

Кожен, хто навчається статистичному аналізу даних на розумному рівні, регулярно використовує концепції надійної статистики. Більшість дослідників знають достатньо, щоб шукати серйозні помилки та помилки запису даних; Політика видалення підозрілих точок даних сягає в 19 століття з лордом Релі, Г. Г. Стоуксом та іншими людьми їхнього віку. Якщо питання:

Чому дослідники не використовують більш сучасні методи для обчислення оцінок місця, масштабу, регресії тощо?

то відповідь дана вище - методи в значній мірі були розроблені за останні 25 років, скажімо 1985 - 2010 рр. Відставання в вивченні нових методів факторів, а також інерція, що посилюється "міфом", що немає нічого поганого в сліпо, використовуючи класичні методи. Джон Тукі зауважує, що тільки які надійні / стійкі методи ви не використовуєте - важливо, що ви використовуєте деякі. Цілком правильно використовувати як класичні, так і стійкі / стійкі методи рутинно, і хвилюватися лише тоді, коли вони досить відрізняються від значення. Але коли вони відрізняються , ви повинні думати важко .

Якщо замість цього, питання:

Чому дослідники не зупиняються і не ставлять запитань щодо своїх даних, а не сліпо застосовують дуже нестабільні оцінки?

то відповідь дійсно зводиться до тренувань. Занадто багато дослідників, які ніколи не навчалися статистиці належним чином, підсумовуючи загальну залежність від p-значень як "всебічних" і "всіх", що мають "статистичну значимість".

@ Квак: Оцінки Губера з 1970-х років є надійними, у класичному розумінні цього слова: вони чинять опір людям. А зменшувальні оцінки фактично датуються ще до 1980-х років: дослідження стійкості Принстона (1971 р.) Включало двошарову оцінку місця розташування, оцінку зменшення кількості.


2
projecteuclid.org/… Вільно доступний документ, написаний Пітером Юбером про внесок Джона Тукі в надійну статистику. Розумно легко читати, висвітлювати формули.
Уеслі Бурр

20

Статистика - це інструмент для нестатистично налаштованих дослідників, і їх просто не хвилює.

Одного разу я намагався допомогти зі статтею про медицину, якою моя колишня дружина була співавтором. Я написав кілька сторінок, де описував дані, що це підказує, чому певні спостереження були виключені з дослідження ... і провідний дослідник, лікар, кинув це все і попросив когось обчислити p-значення, яке це все (і саме про всіх, хто читав би статтю) дбали про це.


12

Я даю відповідь у двох напрямках:

  1. речі, які є надійними, не обов'язково позначаються надійними. Якщо ви вірите в стійкість до всього, що ви, тоді ви наївні.
  2. Статистичні підходи, які залишають проблему надійності, колись не адаптовані до реального світу, але часто є більш цінними (як концепція), ніж алгоритм, схожий на кухонне приготування.

розвиток

По-перше, я думаю, що в статистиці є багато хороших підходів (ви знайдете їх у пакетах R, не обов'язково з чіткими згаданими десь), які, природно, є надійними і перевірені на реальних даних та факт, що ви не знайдете алгоритм із "надійним" "згадане десь не означає, що воно не є надійним. У будь-якому разі, якщо ви думаєте, що надійність означає бути універсальною, тоді ви ніколи не знайдете жодної надійної процедури (без безкоштовного обіду), вам потрібно мати певні знання / досвід щодо даних, які ви аналізуєте, щоб використовувати адаптований інструмент або створити адаптовану модель.

З іншого боку, деякі підходи в статистиці не є надійними, оскільки вони присвячені одному єдиному типу моделі. Я думаю, що колись добре працювати в лабораторії, щоб спробувати зрозуміти речі. Також добре поставитися до проблеми окремо, щоб зрозуміти, яка проблема є нашим рішенням ... так працює математик. Приклад еволюціонера Гауссової моделі: настільки сильно критикується, оскільки гауссова припущення ніколи не виконується, але принесло 75% ідей, що використовуються практично в статистиці сьогодні. Ви дійсно думаєте, що все це стосується написання документа, щоб дотримуватися правила публікації чи загибелі (що мені не подобається, я згоден)?


11

Як хтось, хто навчився трохи статистики для мого власного дослідження, я здогадаюся, що причини педагогічні та інерційні.

Я помітив у своєму власному полі, що порядок викладання тем відображає історію поля. Ті ідеї, які з’явилися вперше, навчаються спочатку тощо. Для людей, які занурюються в статистику лише для короткого навчання, це означає, що вони вивчать класичну статистику спочатку, і, ймовірно, останню. Тоді, навіть якщо вони дізнаються більше, класичні речі з палицею краще завдяки ефектам першості.

Також всі знають, що таке тест з двома зразками. Менше, ніж всі знають, що таке тест Манна-Вітні чи Вілкоксона за рангом. Це означає, що мені доводиться витрачати трохи енергії на пояснення того, що таке мій надійний тест, на відміну від того, що не потрібно робити жодного класичного тесту. Такі умови, очевидно, призведуть до того, що менше людей використовуватиме надійні методи, ніж слід.


9

Вулдрідж "Вступна економетрія - сучасний підхід" 2E с.261.

Якщо стандартні помилки, пов'язані з гетерокедастичністю, дійсні частіше, ніж звичайні стандартні помилки OLS, то чому ми взагалі турбуємо ми звичайні стандартні помилки? ... Однією з причин, яку вони все ще використовують у роботі поперечного перерізу, є те, що якщо припущення гомоскідстастичності дотримується і помилки зазвичай розподіляються, то звичайні t-статистики мають точні t розподіли незалежно від розміру вибірки. Надійні стандартні помилки та надійні статистичні дані t виправдані лише тоді, коли розмір вибірки стає більшим. При малих розмірах вибірки, надійна статистика t може мати розподіли, не дуже близькі до розподілу t, і це може викинути наш висновок. У великих розмірах вибірки ми можемо зробити випадок для того, щоб завжди повідомляти лише про стійкі помилки гетероскедастичності у програмах поперечного перерізу,



7

Хоча вони не є взаємовиключними, я вважаю, що зростаюча популярність баєсівської статистики є її частиною. Байєсівська статистика може досягти багатьох одних і тих же цілей за допомогою пріорів та усереднення моделей, і, як правило, на практиці є трохи більш надійною.


6

Я не статистик, мій досвід статистики досить обмежений, я просто використовую надійну статистику для комп'ютерного зору / 3d реконструкції / оцінки позицій. Ось мій погляд на проблему з точки зору користувача:

По-перше, надійна статистика багато використовувала в техніці та науці, не називаючи її "надійною статистикою". Дуже багато людей використовують це інтуїтивно, підходячи до нього в процесі адаптації конкретного методу до реальної проблеми. Наприклад, ітеративні зважені найменші квадрати та обрізані засоби / обрізаний найменший квадрат, що використовується зазвичай, що просто користувач не знає, що вони використовували надійну статистику - вони просто роблять метод придатним для реальних, несинтетичних даних.

По-друге, як "інтуїтивна", так і свідома надійна статистика практично завжди використовується у випадку, коли результати можна перевірити, або там, де є чітко видно метрики помилок. Якщо результат, отриманий при нормальному розподілі, очевидно, недійсний або неправильний, люди починають майструвати вагами, обрізати, відбирати проби, читати папір і в кінцевому підсумку користуватися надійними оцінками, знають вони термін чи ні. З іншого боку, якщо кінцевим результатом дослідження є лише деякі графіки та діаграми, і немає сенситивності для перевірки результатів, або якщо нормальна статистика дає достатньо хороші результати - люди просто не турбуються.

І останнє, щодо корисності надійної статистики як теорії - хоча сама теорія є дуже цікавою, вона не часто дає практичні переваги. Більшість надійних оцінювачів є досить тривіальними та інтуїтивно зрозумілими, часто люди винаходять їх без будь-яких статистичних знань. Теорія, як оцінка точки злому, асимптотика, глибина даних, гетероскідність тощо дозволяють глибше зрозуміти дані, але в більшості випадків це просто непотрібно. Одним з великих винятків є перетин надійної статистики та стискаючого зондування, які дають нові практичні методи, такі як "крос-букет"


5

Мої знання про надійні оцінки є виключно щодо надійних стандартних помилок параметрів регресії, тому мій коментар буде стосуватися лише цих. Я б запропонував людям прочитати цю статтю,

Про так звані "Оцінювач бутерброда Хубера" та "Надійні стандартні помилки": Фрідман, А. Девід. Американський статистик, Vol. 60, № 4. (листопад 2006 р.), Стор 299-302. doi: 10.1198 / 000313006X152207 ( версія PDF )

Особливо, що мене турбує в цих підходах, це не те, що вони помиляються, але вони просто відволікають від великих проблем. Таким чином, я цілком згоден з відповіддю Робіна Жирара та його згадкою про "відсутність безкоштовного обіду".


3

Обчислення та ймовірність, необхідні для надійної статистики, (як правило) важче, тому (а) теорії менше і (б) зрозуміти важче.


2

Я здивований, коли теорема Гаусса-Маркова не згадується в цьому довгому списку відповідей, афаїків:

У лінійній моделі зі сферичними помилками (яка попутно включає припущення про відсутність залишків, через кінцеву дисперсію помилок), OLS ефективний у класі лінійних неупереджених оцінювачів - існують (обмежуючі, напевне) умови, при яких " ви не можете зробити краще, ніж OLS ".

Я не стверджую, що це повинно виправдовувати використання OLS майже весь час, але це, безумовно, сприяє чому (тим більше, що це хороший привід зосередити увагу на OLS у навчанні).


Ну, так, але це передбачає, що мінімізація дисперсії є відповідним критерієм, а з важкими хвостами це може бути не так!
kjetil b halvorsen

1
Звичайно. Я просто хотів додати те, на що я вважаю, можливо, найвідомішою причиною вважати OLS є корисною технікою до списку зрозумілих причин, чому надійні методи не замінили його: є випадки, коли ви не повинні замінювати його.
Крістоф Хенк

0

Я гадаю, що надійної статистики ніколи не буде достатньо, тобто для надійної ці статистики пропускають частину інформації про розподіл. І я підозрюю, що це не завжди добре. Іншими словами, існує компроміс між надійністю та втратою інформації.

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
Дивіться stats.stackexchange.com/questions/74113/… про ситуацію, коли медіана дуже неміцна і середнє дуже добре поводиться.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.