Чи є статистичний тест, параметричний і непараметричний?


20

Чи є статистичний тест, параметричний і непараметричний? Це питання було задано групою співбесіди. Чи правильно це питання?


1
Вивчення запису у вікіпедії для непараметричної статистики може бути достатньо, щоб підготувати вас до інтерв'ю. Ви можете відповісти на питання запитанням, як у "що ви маєте на увазі під непараметричними моделями без розподілу чи статистикою статистики порядку"?
jrhorn424

3
Як пункт відправлення, це може допомогти вам, а також вашим респондентам проконсультуватися з органом ( не Інтернетом!) Щодо визначень. " Параметричні випадки ... це всі ті, у яких клас усіх [станів природи] можна представити у вигляді вектора що складається з кінцевої кількості реальних компонентів природним шляхом. (... розподіл Функція втрат залежить від досить гладко.) Усі інші проблеми називаються непараметричними . - JC Kiefer, Вступ до статистичних висновків, стор. 23.θθθ
whuber

Один із професорів сказав мені, що "тест Chi-Square" має як поведінку (тобто параметричну, так і непараметричну). Я взагалі не зрозумів, чому «тест на квадратний чі» має обидві поведінки.
Біостат

3
Не тест параметричний, це модель . Chi-квадратні розподіли виникають в обох ситуаціях (природним чином у загальній лінійній моделі з нормальними розподільними припущеннями, і як наближення до різниці ймовірностей журналу - обох параметричних застосувань - а також як наближення для багаточленної дистрибутивів, які виникають у багатьох непараметричних програмах), тому існує багато різних тестів, що мають назву "chi-kvadrat". Мабуть, це запропонувало коментар вашого професора.
whuber

@whuber: Чи означає ваш останній коментар тест-чи-квадрат на корисність непараметричний?
Тім

Відповіді:


6

Принципово важко точно сказати, що означає "параметричний тест" і "непараметричний тест", хоча є багато конкретних прикладів, де більшість погодиться, чи є тест параметричним чи непараметричним (але ніколи і те й інше) . Швидкий пошук дав цю таблицю , яка, на мою думку, являє собою загальну практичну відмінність у деяких областях між параметричними та непараметричними тестами.

Трохи над згаданою таблицею є зауваження:

"... параметричні дані мають основний нормальний розподіл .... Все інше є непараметричним."

В деяких областях може бути прийнятим критерієм, що або ми припускаємо нормальність і використовуємо ANOVA, і це параметрично, або ми не припускаємо нормальності і не використовуємо непараметричні альтернативи.

Це, можливо, не дуже вдале визначення, і на мою думку це не дуже правильно, але це може бути практичне правило. Переважно тому, що кінцевою метою у суспільних науках, скажімо, є аналіз даних, а що корисного в тому, щоб мати можливість сформувати параметричну модель, засновану на ненормальному розподілі, а потім не мати можливості аналізувати дані?

Альтернативним визначенням є визначення "непараметричних тестів" як тестів, які не покладаються на припущення щодо розподілу та параметричні тести, як будь-що інше.

Перше, а також подане останнє визначення визначає один клас тестів, а потім визначає другий клас як доповнення (все інше). За визначенням це виключає, що тест може бути як параметричним, так і непараметричним.

Правда полягає в тому, що також останнє визначення є проблематичним. Що робити, якщо є певні природні "непараметричні" припущення, такі як симетрія, які можуть бути нав'язані? Чи перетворить це тестову статистику, яка інакше не покладається на будь-які припущення щодо розподілу, у параметричний тест? Більшість сказала б ні!

Отже, в класі непараметричних тестів є тести, яким дозволяється робити деякі розподільні припущення тих пір, поки вони не є "занадто параметричними". Межа між тестами "параметричний" та "непараметричний" стала розмитою, але я вважаю, що більшість буде підтримувати тест параметричний або непараметричний, можливо, це не може бути ні тим, що говорити, що це обидва мало сенсу.-

Вважаючи іншу точку зору, багато параметричних тестів є (еквівалентними) тестами співвідношення ймовірності. Це робить можливою загальну теорію, і ми маємо єдине розуміння розподільних властивостей тестів відношення ймовірності за відповідних умов регулярності. Непараметричні тести, навпаки, не еквівалентні тестам співвідношення ймовірності самі по собі немає ймовірності - і без уніфікованої методології, заснованої на ймовірності, нам доведеться отримувати результати розподілу залежно від конкретного випадку. Теорія емпіричної ймовірності--Однак, розроблений в основному Арт Оуен в Стенфорді, є, однак, дуже цікавим компромісом. Він пропонує імовірнісний підхід до статистики (важливий момент для мене, оскільки я вважаю, що ймовірність є більш важливим об'єктом, ніж -значення, скажімо) без необхідності типових параметричних припущень розподілу. Фундаментальна ідея полягає в розумному використанні мультиноміального розподілу на емпіричних даних, методи є дуже «параметричними», але при цьому дійсні без обмеження параметричних припущень.p

Тести, засновані на емпіричній ймовірності, мають ІМХО, достоїнства параметричних тестів та загальність непараметричних тестів, отже, серед тестів, які я можу придумати, вони наближаються до кваліфікації як параметричних, так і непараметричних, хоча я б не використовувати цю термінологію.


+1 Дуже цікаві коментарі. Щодо того, як межа стає «розмитою», я вважаю це правильним твердженням про сприйняття, але в самих визначеннях немає розмитості: відмінність між параметричними і непараметричними є настільки чіткими і різкими, як і між, скажімо, кінцевими. і нескінченний.
whuber

@whuber, щодо того, що є "розмитим", я конкретно мав на увазі той факт, що також можуть існувати припущення щодо розподілу для непараметричних тестів, тому моє друге визначення також не працює. Якщо мені слід спробувати чітке визначення, параметричний тест будується на моделі, яка може бути параметризована підмножиною кінцевомірного евклідового простору. Що, на мою думку, є найбільш «розмитим», це те, що мені незрозуміло, наскільки далеко від «жодних припущень щодо розподілу», які ви можете пройти, перш ніж непараметричні припущення стануть настільки ж проблема, як і параметричні припущення.
NRH

@whuber, я зараз читаю ваш коментар до питання з посиланням на Kiefer, і так, це, безумовно, хороша ідея проконсультуватися з органом для офіційного визначення! Мене насправді більше хвилювало те, що люди взагалі мають на увазі, коли вони говорять «непараметричні», і я здогадуюсь, що мало хто має на увазі визначення Кіфера.
NRH

Дивіться мою цитату від Кіфера в коментарі до початкового питання. Зокрема, "непараметричний" не означає "відсутність припущень щодо розподілу". Навпаки, найбільш відомі непараметричні тести все роблять дистрибутивні припущення. Я думаю, що я розумію ваше відчуття "розмитого": я вибрав кінцеву / нескінченну аналогію з поваги до цього, оскільки на практиці дуже велика (але кінцева) кількість параметрів так само може вважатися нескінченною.
whuber

2

Параметричний використовується в (принаймні) двох значеннях: A - Щоб заявити, ви припускаєте сімейство розподілу шуму до його параметрів. B - Щоб заявити, ви припускаєте специфічну функціональну залежність між пояснювальними змінними та результатом.

Деякі приклади:

  • Квантильна регресія з лінійною ланкою кваліфікується як B-параметрична та A-непараметрична.
  • Згладжування сплайну часового ряду з гауссовим шумом може бути якісним як A-непараметричне та B-параметричне.

Термін "напівпараметричний", як правило, відноситься до випадку B і означає, що ви не приймаєте на себе ціле функціональне відношення, а навпаки, у вас є більш м'які припущення, такі як "добавка в деякій плавній трансформації прогнозів".

Ви також можете мати більш м'які припущення щодо розподілу шуму - наприклад, "усі моменти скінченні", не конкретизуючи форму розподілу. Наскільки мені відомо, для цього типу припущення немає терміна.

Зауважимо, що відповідь стосується основних припущень, що стоять за процесом генерування даних. Кажучи "параметричний тест", зазвичай, йдеться про непараметричне в сенсі А. У цьому, що ви мали на увазі, тоді я відповів би "ні". Бути неможливо одночасно бути параметричним і непараметричним в одному сенсі.


Два значення в першому пункті часто мають уніфіковану трактування в літературі: тобто, мабуть, немає принципової чи важливої ​​різниці між ними. До речі, випадок "усі моменти є кінцевими" - це, безумовно, непараметрична проблема.
whuber

@whuber: визначення у Кейфера, здається, охоплює обидва випадки (я визнаю - я ніколи його не читав і все ще шукаю винятки). З іншого боку, терміни змінюють своє значення. "Емпіричний-Байєс" більше не означає, для чого його використовував Роббінс у 1955 році. Ви не можете ігнорувати той факт, що існує декілька тлумачень.
JohnRos

Гаразд, але ми повинні бути трохи вибагливими: очевидно, що багато тлумачень і спроб визначення "параметричних" і "непараметричних" є виразом незнання, а не розуміння. Чи можете ви навести альтернативне визначення, яке є одночасно чітким, суворим та авторитетним (якщо бути точним, авторитетним у тому сенсі, що це було б прийнято без сумніву в надійному рецензованому журналі)?
whuber

1
@whuber: Я приймаю виклик! :-) Хоча зауважте, оскільки всі дослідники починають свої пошуки у Вікіпедії, настав час, поки надійні рецензовані журнали не прирівнюються до визначення Wiki. ("якщо ви не можете їх перемогти ...")
JohnRos

1
У статті Вікіпедії цитується Волфовіц з 40-х рр. ХХ ст., Який не тільки вперше застосував "непараметричні", але і є одним із прямих інтелектуальних предків Кіфера. Я не думаю, що ми знайдемо там справжню різницю. (Кійфер додає лише технічну вимогу щодо функції втрат.) Однак я підозрюю, що дуже мало (якщо такі є) справжні дослідники сприймають Вікіпедію як точку відправлення, особливо не на полях з математичними основами!
whuber

1

Я гадаю, що залежить від того, що вони означають під "параметричними та непараметричними"? В той же час точно обоє, чи суміш двох?

Багато хто вважає модель пропорційної небезпеки Кокса напівпараметричною, оскільки вона параметрично не оцінює базову небезпеку.

Або ви можете переглянути багато непараметричних статистичних даних як фактично масові параметричні.


7
Це здається ухиленням. Питання полягає в дослідженні того, чи оцінюється розмежування між "параметричним" і "непараметричним", чи це чітке чи ні. Хороша відповідь висвітлить цю відмінність, а не заплутає її.
whuber

1
@whuber Яке "питання"? Панель, або ОП? Тому що, на мій погляд, ОП не досліджує розрізнення нічого. Що означає, це залежить від того, де люди проводять лінію. Я не думаю, що надання загального та філософського прикладу для "Ну, це залежить" - це ухилення. Я думаю, що це відповідь. На кшталт того, хоче хтось вважати "параметричний" повністю параметричним чи просто має параметри.
Фоміт

Справа про "яке питання" - це добре. Я думаю, що у мене виникають проблеми з вашою відповіддю, що це робить розрізнення, які, за моїми ресурсами, не мають сенсу ("суміш" є безглуздою, а також ідея, що "статистика" може бути параметричною), що говорить про те, що ви використовуєте інше визначення "параметричний" і "непараметричний", ніж я. Хоча ви заперечуєте, що відповідь має залежати від того, що означають ці терміни, ви насправді не пропонуєте визначення, щоб зробити ваші наступні коментарі чіткими або зрозумілими.
whuber

@whuber Ярмарок досить. Я визнав оригінальне питання дещо безглуздим, тому робив усе, що міг. Тепер питання має кращі відповіді, які дають певні припущення щодо того, що означає ОП.
Фоміт

0

Бредлі у своїх класичних статистичних тестах без розподілу (1968, стор. 15–16 - див. Це питання для цитати) пояснює різницю між тестами без розподілу та непараметричними , які, за його словами, часто пов'язані між собою, і дає Приклад параметричного тесту без розподілу як тест Знак для медіани. Цей тест не передбачає припущення про базовий розподіл вибіркової сукупності змінних значень, тому він не є розподілом . Однак якщо вибрана медіана правильна, значення вище та нижче її слід вибирати з однаковою ймовірністю, випробовуючи випадкові вибірки зp=0,5

Оновлення

(А¬А)


1
Мені подобається початок цієї відповіді, тому що вона робить цікаву відмінність і підтримує її з хорошим посиланням. Однак мені здається, що решта відповіді плутає припущення щодо даних із властивостями тестової статистики. Припущення тестової ознаки справді є "розповсюдженням безкоштовно". Однак той факт, що розподіл вибірки тестової статистики є двочленним, є цілком окремим питанням і не робить процедуру параметричною!
качан

Що ж, сам Бредлі називає тест Знак без розподілу, але параметричним на стор. 15. Поле для коментарів занадто мало, щоб узагальнити два ключові пропозиції. Будь ласка, прочитайте іншу відповідь, зокрема речення, які починаються з "Грубо кажучи ..." та "Для того, щоб бути абсолютно зрозумілим ...". Дякую.
Аврахам

Якщо це так з Бредлі, то або значення цих термінів змінилися з тих пір, або (я ненавиджу це говорити) ви неправильно трактували те, що він написав. (Я не маю доступу до копії, яку можу перевірити.) Зараз, безумовно, це не так - і не було принаймні протягом останніх 30 років - цей "параметричний" посилався на розподіл тестової статистики. Дивіться цитату Вулфовіца у статті Вікіпедії .
whuber

2
Дякую за пропозицію, але це не велика справа, тому вам не потрібно турбуватися. Моє улюблене джерело для чіткої інформації про основні поняття - «Кіфер», вступ до статистичних висновків (Springer 1987). " Параметричні випадки статистичних задач - це всі ті, у яких клас всіх dfЖΩθ

2
Щодо того, що варто, я переглянув два інші статистичні тексти, " Імовірність і статистику" ДеГрута (2-е видання, с. 520-521) та Введення Ларсона в теорію ймовірностей та статистичні умовиводи (3-е видання, с.508-509), і обидва використовують термін параметрическая означає , що Bradly називає розподіл вільної , яка, як Кіфер, я вважаю. Отже, щоб відповісти на ОП, це залежить від того, як ви визначаєте "параметричний".
Аврахам
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.