Чому параметрична статистика коли-небудь віддаватиме перевагу непараметричній?


60

Чи може хтось мені пояснити, чому хтось обрав би параметричний над непараметричним статистичним методом для тестування гіпотез чи регресійного аналізу?

На мій погляд, це як поїхати на рафтинг і вибрати не водостійкий годинник, тому що ви не зможете його намочити. Чому б не використати інструмент, який працює у кожному випадку?


21
Це полягає у впровадженні індуктивних ухилів у процес статистичного висновку. Це вигадливий спосіб сказати: якщо ви щось знаєте, надайте це як підказку. Цей натяк може мати такі форми, як надання функціональної форми вірогідності або попереднього розподілу параметрів. Якщо ваш натяк хороший, результат кращий, ніж без підказки, а якщо він поганий - результат гірший.
Cagdas Ozgenc

6
Не обов'язково. В основному ви шукаєте щось на дуже великому десерті. Якщо хтось скаже вам, що те, що ви шукаєте, обмежене на певній території, то ваші шанси знайти це покращуються. Але якщо вони введуть вас в оману з помилковою інформацією, то скільки б ви не шукали цю територію, ви її не знайдете.
Cagdas Ozgenc

17
Як деревообробник, я люблю аналогію наприкінці. Будинки та меблі, які добре збудовані та останні, будуються за допомогою спеціалізованих інструментів. Інструменти загального призначення відмінно підходять для власників будинків, а також для професіоналів, яким потрібно швидко виконати роботу або при використанні сирого чи невідповідного інструменту не зміниться якість, про який хтось піклується. Майстри, однак, досягають найкращих результатів, використовуючи правильний інструмент для роботи, і справді деякі речі просто не обійтися без цього. Наприклад, ніхто ніколи не робив хорошого хвостика з ручної пилою загального призначення.
whuber

3
Якщо ви копаєте канаву лопатою або чайною ложкою, ви закінчите ровом. Просто якщо ви вживали чайну ложку, ви також старші.
кон'югатприор

Відповіді:


25

Рідко, якщо коли-небудь параметричний тест і непараметричний тест насправді мають однаковий нуль. Параметрична t test - це тестування середнього розподілу, припускаючи, що існують перші два моменти. Тест за сумою рангів Вілкоксона не передбачає жодних моментів і замість цього перевіряє рівність розподілів. Який мається на увазі параметр - дивний функціонал розподілів, ймовірність того, що спостереження з однієї вибірки нижче, ніж спостереження з іншого. Ви можете якось поговорити про порівняння між двома тестами під цілком заданим нулем однакових розподілів ... але ви повинні визнати, що два тести перевіряють різні гіпотези.

Інформація, яку приводять параметричні тести разом із їх припущенням, сприяє підвищенню потужності тестів. Звісно, ​​що інформація краще бути правильною, але їх небагато, якщо в ці дні існують сфери людських знань, де такої попередньої інформації не існує. Цікавим винятком, який прямо говорить «Я нічого не хочу припускати», - це зал суду, де непараметричні методи продовжують користуватися широкою популярністю - і це має ідеальний сенс для програми. Мабуть, є вагома причина, призначена каламбуром, що Філіп Гуд написав хороші книги як про непараметричну статистику, так і статистику судових залів .

Також є ситуації тестування, коли у вас немає доступу до мікроданих, необхідних для непараметричного тесту. Припустимо, вас попросили порівняти дві групи людей, щоб визначити, чи одна з них страждає ожирінням, ніж інша. В ідеальному світі вам доведеться виміряти зріст і вагу для всіх, і ви зможете сформувати тест на перестановку, що стратифікує висоту. У менш ніж ідеальному (тобто реальному) світі ви можете мати лише середній зріст і середню вагу в кожній групі (або можуть бути деякі діапазони або відхилення цих характеристик поверх засобів вибірки). Ваша найкраща ставка - це обчислити середній ІМТ для кожної групи та порівняти їх, якщо у вас є лише засоби; або припустимо, що двовимірний нормальний для зросту та ваги, якщо у вас є засоби та відхилення (вам, мабуть, доведеться взяти кореляцію за деякими зовнішніми даними, якщо вони не відповідають вашим зразкам),


3
Я розумію, що у випадку тестування у вас немає однакової нулі, хоча я не впевнений, чи має сенс сказати, що нуль кращий за інший. А як щодо випадку передбачення? Зовсім інша історія, все ще параметрична проти непараметричної дилеми.
en1

22

Як писали інші: якщо будуть виконані передумови, ваш параметричний тест буде більш потужним, ніж непараметричний.

За вашою аналогією годинника, водонепроникний був би набагато точнішим, якщо б він не промок. Наприклад, ваш водонепроникний годинник може бути вимкнений на одну годину в будь-якому випадку, тоді як не водостійкий був би точним ... і вам потрібно спіймати автобус після поїздки на сплав. У такому випадку може бути доцільним взяти з собою наручний водонепроникний годинник і переконатися, що він не намокне.


Бонусний бал: непараметричні методи не завжди прості. Так, альтернатива тесту перестановки на тесті проста. Але непараметричну альтернативу змішаній лінійній моделі з декількома двосторонніми взаємодіями та вкладеними випадковими ефектами встановити трохи складніше, ніж простий дзвінок nlme(). Я це робив, використовуючи перестановочні тести, і на мій досвід, значення p параметричних та перестановочних тестів завжди були досить близько один до одного, навіть якщо залишки параметричної моделі були зовсім ненормальними. Параметричні тести часто напрочуд стійкі до відхилень від своїх передумов.


Здається, що поширена думка, що параметричні методи є більш потужними, коли їхні припущення виконуються. Але якщо це так, то звідки у нас є p-значення для оцінки результатів обох підходів? Я маю на увазі, якщо параметричний тест відхиляє нульову гіпотезу з вірогідністю щонайменше 99%, як це краще від непараметричного тесту, який відхиляє нульову гіпотезу з вірогідністю 99%? Чи відрізняється ймовірність 0,99 в кожному випадку? Це не мало б сенсу.
en1

1
Нульові гіпотези відрізняються між параметричним тестом та його непараметричним аналогом. Зокрема, нульова гіпотеза параметричного тесту містить специфічне параметричне припущення щодо розподілу статистики тесту (яке, як правило, також обчислюється по-різному для двох тестів) - саме тому його називають "параметричним", зрештою! Отже, два p значення мають одне ім’я, але обчислюються на основі різних статистичних даних тесту, які мають різні розподіли за різними нульовими гіпотезами.
S. Kolassa - Відновіть Моніку


3
@StephanKolassa, я фактично почав писати коментар до вашої відповіді і захопився :)
StasK

12

Хоча я згоден з тим, що в багатьох випадках непараметричні методи сприятливі, але є ситуації, коли параметричні методи є більш корисними.

Давайте зосередимось на обговоренні «тестування з двох зразків проти випробування рангом Вілкоксона» (інакше ми повинні написати цілу книгу).

  1. При невеликих розмірах груп, що становить 2-3, лише t-тест теоретично може досягти значень р нижче 5%. У біології та хімії подібні розміри груп не є рідкістю. Звичайно, делікатно використовувати t-тест в таких умовах. Але, можливо, це краще, ніж нічого. (Цей пункт пов'язаний з тим, що в ідеальних обставинах t-тест має більшу потужність, ніж тест Вілкоксона).
  2. Завдяки величезним розмірам груп, також t-тест можна розглядати як непараметричний завдяки теоремі про центральний межа.
  3. Результати t-тесту відповідають інтервалу довіри Стьюдента для середньої різниці.
  4. Якщо відхилення сильно різняться в різних групах, то версія t-тесту Велча намагається врахувати це, тоді як тест за сумою рангів Вілкоксона може погано вийти з ладу, якщо порівнювати кошти (наприклад, ймовірність помилок першого виду сильно відрізняється від номінального рівня ).

2
Я не погоджуюся з 1. Просто використання процедури, оскільки вона дозволяє приймати рішення, насправді не є вагомою причиною, особливо коли у вас немає підстав очікувати, що процедура є дійсною. Якщо у вас мало або взагалі немає даних, тоді просто прийміть судження і не робіть вигляд, що він заснований на строгості.
dsaxton

5
Я погоджуюсь з тобою. Очевидно, одна з причин того, що результати часто не відтворюються, навіть якщо вони публікуються в журналах найвищого рейтингу. Але які варіанти у вас є дослідником, якщо бюджет дозволяє лише невеликі розміри вибірки?
Майкл М

1
Re 4 і проблеми із застосуванням Вілкоксона-Манна-Уітні, коли між групами існують неоднакові відмінності, існують непараметричні методи, що дозволяють гетероскедастичність: я, здається, згадую тест Кліффа або тест Бруннера-Мюнзеля, наприклад. (Я не думаю, що ми маємо багато інформації про них на цьому сайті.)
Silverfish

@Silverfish: Я часто використовую методи Бруннера і думаю, що ти маєш рацію. Але я сумніваюся, що вони насправді порівнюють засоби, за винятком сильних припущень щодо розподілу.
Майкл М

1
@MichaelM Так, звичайно, це повертається до питання параметричних та непараметричних методів, що мають різні гіпотези.
Срібна рибка

9

У тестуванні гіпотез непараметричні тести часто перевіряють різні гіпотези, що є однією з причин, чому не завжди можна просто замінити непараметричний тест параметричним.

ухfff(х)=j=1pβjхj


Так, і це додає упередженості моделі. Що це говорить про звітність дослідників р-значень?
Cagdas Ozgenc

@dsaxton, що ви говорите, правда щодо тестування різних гіпотез, але люди все одно трактують їх однаково. Тоді також є регресія, де розуміння, отримане між непараметричним та параметричним аналізами, майже однакове.
en1

@ cagdas-ozgenc Це говорить вам про те, що значення p залежать від моделі. Але незрозуміло, як все може бути інакше ...
сполучаєтьсяпред

3
+1 за те, що зауважив, що у нас абсолютно немає шансів оцінити що-небудь ціннісне в регресії без певних припущень щодо функції регресії.
кон'югатприор

9

Напівпараметричні моделі мають багато переваг. Вони пропонують такі випробування, як тест Вілкоксона, як окремий випадок, але дозволяють оцінити коефіцієнти ефекту, квантування, засоби та ймовірності перевищення. Вони поширюються на поздовжні та цензурні дані. Вони надійні в Y-просторі і є інваріантними перетвореннями за винятком засобів оцінки. Дивіться http://biostat.mc.vanderbilt.edu/rms посилання на роздатковий матеріал для детального прикладу / тематичного дослідження.

tYYXX1X2. Приклади включають модель пропорційних шансів (окремий випадок: Вілкоксон та Крускал-Уолліс) та модель пропорційної небезпеки (особливий випадок: тест на рангову реєстрацію та стратифікований тест на рангові журнали).

Y


1
Я трохи боровся з цим. Ви вважаєте t-тест напівпараметричним чи непараметричним? З одного боку, я завжди вважав, що "суть" напівпараметрики полягає в наступному: візьміть "робочу" модель ймовірності для даних, оцініть параметри цього розподілу незалежно від правильності розподілу та вдосконаліть оцінку помилок до враховувати невизначеність. (Отже, помилки на основі сендвіча для рішення рівнянь Гаусса були б напівпараметричним Т-тестом). Однак напівпараметричні показники майже завжди включають в себе часткове часткове / кондиціонування, як це стосується моделей Кокса.
AdamO

Я додам більше опису до своєї відповіді, щоб вирішити це.
Френк Харрелл

6

Серед безлічі наданих відповідей я хотів би також звернути увагу на байєсівську статистику. На деякі проблеми неможливо відповісти окремо. Частота використовує контрфактичні міркування, де "ймовірність" відноситься до альтернативних всесвітів, а альтернативна рамка Всесвіту не має сенсу, якщо робити висновок про стан окремої людини, наприклад, про вину чи невинність злочинця, чи про обмеження частоти генів у види, що зазнали масового зрушення навколишнього середовища, призвели до його вимирання. У байєсівському контексті ймовірність - це "віра", а не частота, яку можна застосувати до тієї, яка вже випала в осад.

Тепер більшість байєсівських методів вимагають повністю вказати ймовірнісні моделі для попереднього та результату. І більшість цих моделей вірогідності є параметричними. Відповідно до того, що говорять інші, вони не повинні бути точно правильними для створення змістовних підсумків даних. "Усі моделі неправильні, деякі моделі корисні."

Існують, звичайно, непараметричні байєсівські методи. Вони мають багато статистичних зморшок і, взагалі кажучи, вимагають значного використання майже всебічних даних про населення.


6

Єдина причина, на яку я відповідаю, незважаючи на всі тонкі відповіді вище, - це те, що ніхто не звертав уваги на причину №1, в якій ми використовуємо параметричні тести (принаймні, в аналізі даних фізики частинок). Тому що ми знаємо параметризацію даних. Да! Це така велика перевага. Ви збиваєте свої сотні, тисячі або мільйони точок даних на кілька параметрів, які вас цікавлять, і описують ваше розповсюдження. Вони розповідають про основні фізики (або будь-яка наука, яка дає вам ваші дані).

Звичайно, якщо ви не маєте уявлення про основної щільності ймовірностей, тоді у вас немає вибору: використовуйте непараметричні тести. Непараметричні тести дійсно мають відсутність заздалегідь упереджених упереджень, але їх важче здійснити - іноді набагато складніше.


5

Непараметрична статистика має свої проблеми! Один з них - наголос на тестуванні гіпотез, часто нам потрібні інтервали оцінювання та достовірності, а отримання їх у складних моделях з непараметричними параметрами --- складне. Про це є дуже хороша публікація в блозі з обговоренням на http://andrewgelman.com/2015/07/13/dont-do-the-wilcoxon/ Обговорення веде до цього іншого допису, http: // notstatschat. tumblr.com/post/63237480043/rock-paper-scissors-wilcoxon-test , який рекомендується дуже різної точки зору на Wilcoxon. Коротка версія: Wilcoxon (та інші рангові тести) можуть призвести до непереносимості.


4
Я не впевнений, що транзитивність - це кінець і все бути. І ви можете перевернути тест Вілкоксона, щоб отримати дуже надійний та корисний інтервал довіри оцінювача місцеположення.
Френк Харрелл

2
Нетранзитивность має свої моменти в причинному моделюванні, але для простих двох зразкових тестів асоціації я не думаю, що це насправді проблема. Крім того, я не бачу різниці в інтервалах тестування / оцінки / достовірності гіпотез між непараметричними та параметричними методами. Іноді, при надійній оцінці, ви використовуєте робочу модель вірогідності, щоб відповідна параметрична оцінка дала змістовний підсумок даних (навіть якщо вона не є правильною моделлю ймовірності сама по собі). Можливо, ви можете розширити цю відповідь?
AdamO

2
Зазвичай для випробування Вілкоксона робляться деякі додаткові припущення, наприклад, стохастичне домінування однієї групи над іншою, що якщо справжнє відновить транзитивність.
Scortchi

3

Я б сказав, що непараметрична статистика в більшій мірі застосовна в тому сенсі, що вони роблять менше припущень, ніж параметрична статистика.

Тим не менш, якщо використовувати параметричну статистику і основні припущення виконані, то параматрична статистика буде більш потужною, ніж непараметрична.


2

Параметрична статистика часто є способами включення зовнішніх знань [до даних]. Наприклад, ви знаєте, що розподіл помилок є нормальним, і ці знання виходили або з попереднього досвіду, або з іншого розгляду, а не з набору даних. У цьому випадку, передбачаючи нормальний розподіл, ви включаєте це зовнішнє знання у свої оцінки параметрів, що повинно покращити ваші оцінки.

На вашій аналогії годин. У наші дні майже всі годинники водостійкі, за винятком спеціальних предметів з ювелірними виробами або незвичайних матеріалів, таких як дерево. Причина носити їх саме в тому, що вони особливі. Якщо ви мали на увазі водний доказ, то багато платтяних годин не є водонепроникними. Причиною їх носити знову є їхня функція: ви б не носили водолазний годинник із костюмом та краваткою. Крім того, в наші дні багато годинників відкриті назад, так що ви можете насолоджуватися переглядом руху крізь кристал. Звичайно, ці годинники зазвичай не є водонепроникними.


1
Мені подобається ця метафора !. Я пам’ятаю, один професор сказав нам, що ми повинні спробувати різні статистичні методи на одній речі, щоб побачити, чи зможемо ми отримати однакові результати.
Глибока Північ,

2

Це не сценарій тестування гіпотез, але це може бути хорошим прикладом для відповіді на ваше запитання: розглянемо аналіз кластеризації. Існує багато "непараметричних" методів кластеризації, такі як ієрархічна кластеризація, K-засоби і т. Д., Але проблема полягає завжди в тому, як оцінити, чи є ваше кластерне рішення "кращим", ніж інші можливі рішення (а часто є кілька можливих рішень) . Кожен алгоритм дає вам все можливе, але як ви знаєте, чи немає нічого кращого? Зараз також є параметричні підходи до кластеризації, так звані кластеризації на основі моделей, як і моделі кінцевих сумішей. За допомогою FMM ви будуєте статистичну модель, яка описує розподіл ваших даних і вписує їх у дані. Коли у вас є модель, ви можете оцінити, наскільки ймовірні ваші дані, надані цією моделлю, ви можете використовувати тести на коефіцієнт ймовірності, порівнювати показники AIC та використовувати безліч інших методів для перевірки відповідності моделі та порівняння моделі. Непараметричні алгоритми кластеризації просто групують дані, використовуючи деякі критерії подібності, тоді як за допомогою FMM дозволяють описувати та намагатися зрозуміти ваші дані, перевіряти, наскільки вони добре підходять, робити прогнози ... На практиці непараметричні підходи прості, працюйте нестандартні та досить хороші, тоді як FMM може бути проблематичним, але все-таки підходи, засновані на моделі, часто дають вам багатший результат.


2

Для непараметричних моделей прогнозування та прогнозування нових даних часто є дуже важким або неможливим. Наприклад, я можу передбачити кількість гарантійних претензій на наступні 10 років за допомогою моделі виживання Weibull або Lognormal, однак це неможливо, використовуючи модель Кокса або Kaplan-Meier.

Редагувати: Дозвольте мені трохи зрозуміліше. Якщо компанія має дефектний товар, то вони часто зацікавлені в проектуванні майбутніх норм вимог щодо гарантійних вимог та CDF на основі поточних гарантійних претензій та даних про продаж. Це може допомогти їм вирішити, чи потрібно відкликання чи ні. Я не знаю, як ви це робите, використовуючи непараметричну модель.


7
Дозволю собі не погодитися. Ви можете використовувати модель Кокса для оцінки квантилів, середнього значення (якщо найвище значення Y без цензури) та всіляких ймовірностей. Неможливість прогнозувати поза діапазоном даних є проблемою, хоча (як ви вже згадували), але ви можете бути екстраполяційними.
Френк Харрелл

@FrankHarrell Так, добре, завжди слід бути обережними при екстраполяції.
Глен

Що про випадковий ліс, глибоке навчання чи SVM? Вони перемагають більшість, якщо не всі параметричні методи прогнозування.
en1

2
За винятком спробуйте і прийняти дерево рішень, дізнайтеся діагональну межу
bill_e

1

Я чесно вважаю, що на це питання немає правильної відповіді. Судячи з наведених відповідей, консенсус полягає в тому, що параметричні тести є більш потужними, ніж непараметричні еквіваленти. Я не оскаржую цю думку, але я вважаю це скоріше гіпотетичним, а не фактичним поглядом, оскільки це не те, що явно викладається в школах, і жоден експерт-рецензент ніколи не скаже вам, "ваш документ відхилено, оскільки ви використовували непараметричні тести". Це питання стосується чогось, на що світ статистики не може однозначно відповісти, але сприйняв як належне.

Моя особиста думка полягає в тому, що перевага або параметричних, або непараметричних більше пов'язана з традицією, ніж будь-що інше (через відсутність кращого терміна). Параметричні методи тестування та прогнозування були там першими і мають давню історію, тому повністю їх ігнорувати непросто. Зокрема, передбачення має деякі вражаючі непараметричні рішення, які широко використовуються як інструмент першого вибору в даний час. Я думаю, що це одна з причин того, що методи машинного навчання, такі як нейронні мережі та дерева рішень, які є непараметричними за своєю природою, набули широкої популярності протягом останніх років.


3
3/π95%

"Консенсус" означає "загальну згоду", а не моє особисте бачення.
Дігіо

2
Я не мав на увазі, чи є висловлювання вашим власним особистим поглядом чи колективною мудрістю інших людей, просто зазначив, що твердження є правильним лише в тому випадку, якщо необхідні умови для параметричного тестування справджуються . Якщо умови не виконуються, можливо, це не так, що "параметричні тести є більш потужними, ніж непараметричні", а насправді може бути і зворотний (іноді дуже широкий запас).
Срібляста рибка

Touché! ..... +1
Дігіо

0

Це питання статистичної влади. Непараметричні тести, як правило, мають меншу статистичну потужність, ніж їх параметричні аналоги.


6
Параметричні тести матимуть більше потужності, коли їхні припущення будуть виконані. Якщо їхні припущення не виконані, непараметричні тести можуть бути більш потужними.
gung - Відновіть Моніку

3
Ця відповідь дуже коротка, і потужність обговорювалася в попередніх відповідях. Ви могли б трохи розширити його?
Скорчі - Відновлення Моніки

4
Коефіцієнт посилення електроенергії при параметричних випробуваннях є незначним порівняно зі втратами електроенергії, які вони зазнають, коли їхні припущення не виконані.
Френк Харрелл

Відверто, це залежить від тесту, деякі тести є більш стійкими до порушень своїх припущень.
Прихована маркова модель

0

Уже багато хороших відповідей, але я не бачив причин, яких я не бачив:

  1. Ознайомлення. Залежно від вашої аудиторії, параметричний результат може бути набагато більш відомим, ніж приблизно еквівалентний непараметричний. Якщо вони дають подібні висновки, то знайомство добре.

  2. Простота. Іноді параметричний тест простіший у виконанні та звітуванні. Деякі непараметричні методи є дуже комп’ютерними. Звичайно, комп'ютери стали набагато швидше, і алгоритми також покращилися, але .... дані стали "більшими".

    1. Іноді те, що зазвичай є недоліком параметричного тесту, насправді є перевагою, хоча це характерно для певних пар тестів. Наприклад, я, як правило, шанувальник квантової регресії, оскільки це робить менше припущень, ніж звичайні методи. Але іноді дійсно потрібно оцінити середнє значення, а не медіану.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.