Чи краще вибирати дистрибуції на основі теорії, підходи чи чогось іншого?


12

Це межує з філософським питанням, але мене цікавить, як інші з більшим досвідом думають про вибір розподілу. У деяких випадках здається очевидним, що теорія може працювати найкраще (довжина хвоста мишей, ймовірно, нормально розподілена). У багатьох випадках, мабуть, немає теорії для опису набору даних, тож ви просто використовуєте щось, що відповідає тому, що у вас є досить добре, незалежно від того, що воно було розроблено для опису? Я можу собі уявити деякі підводні камені того, як виходити з тим чи іншим із них, і, звичайно, тут здається проблема, що, можливо, вам слід просто використовувати емпіричний розподіл, якщо ви насправді не маєте ідеї.

Тож я здогадуюсь, що я насправді запитую: чи є у когось узгоджений спосіб підходити / думати про цю проблему? І чи є якісь ресурси, які ви можете запропонувати, щоб це вдало вирішити?


4
Це принципово залежить від того, чому людина підходить або припускає розподіл, і що він призначений представляти. На цьому веб-сайті ми розміщуємо багато питань, коли, здається, люди відчувають, що вони повинні підходити до розподілу даних або отриманих кількостей (наприклад, залишки регресії), коли насправді вправа є безглуздим (або ще гірше, оманливим), що стосується вирішення статистичних проблем, які вони насправді мають стурбованість. Не могли б ви уточнити види справ, які ви маєте на увазі?
whuber

1
Привіт Whuber, дякую за коментар. Оскільки я почав трохи працювати над імовірнісною оцінкою ризику, від мене вимагають пристосувати всі свої дані до дистрибутивів, і мені стало цікаво мати більш послідовне уявлення про те, як здійснюється вибір розподілу. Тож я маю на увазі уточнити, мене цікавлять лише ті часи, коли ви повинні використовувати дистрибутив, і як правильно це зробити. Як я вже говорив, деякі випадки з теорії були легкими, інший раз я використовую емпіричний розподіл, оскільки це здається найкращим, але моє прийняття рішення є більш випадковим, ніж я хотів би.
HFBrowning

1
Це цікава банка глистів, адже те, що ви насправді робите (дещо абстрактно), намагаєтесь поширити невизначеність вибірки за допомогою обчислення. Причина дивитися на процедуру з цього високого рівня полягає в тому, що вона виявляє принципову помилку, яку часто роблять: замінюючи дані розподілами, не вдається включити невизначеність в оціночні параметри розподілу. Деякі практикуючі облік цього називають ПРА "другого порядку". Я хотів би запропонувати вам звузити своє питання, щоб зосередитись на цих питаннях, а не питати про відповідність розподілу взагалі.
whuber

1
Пакет, який я використовую для своєї PRA, є monte carlo 2-го порядку ( пакет mc2d в R), тому я призначаю свої розподіли як "невизначеність", "мінливість" або і те й інше. Тож сподіваюсь, я докладаю цієї проблеми, наскільки можу. Однак, моїм початковим наміром цього питання було отримати вигляд більш високого рівня, і я підняв оцінку ризику просто, щоб дати контекст, чому я зацікавлений. І, можливо, немає кращого способу, ніж "іноді ти робиш це, іноді робиш так", але я сподівався, що у когось є пропозиції :) Тим більше, що я не можу легко визначити, коли це може бути краще -
HFBrowning

3
Це, безумовно, правильне місце для вашої публікації. Ви хочете сказати, що у вас виникли проблеми з редагуванням? Між іншим, мені цікаво, як ваші процедури кількісно оцінюють невизначеність використання емпіричного розподілу. Він також поставляється з мінливістю вибірки (яка може бути глибокою в хвостах, які часто мають найбільше значення при оцінці ризику), навіть якщо ви чітко не оцінювали жодних параметрів.
whuber

Відповіді:


6

Однозначно залежить від того, які дані стосуються, і скільки хтось знає чи бажає припустити про них. Як @whuber нещодавно заявив у чаті , "Там, де йдеться про фізичний закон, ви майже завжди можете обґрунтувати належний спосіб моделювання даних". (Я підозрюю, що це правдивіше за нього, ніж про мене! Хоча я також сподіваюся, що це неправильно застосовується з його початкового контексту ...) У випадках, подібних до латентного моделювання конструкцій у соціальних науках, часто корисно зосередитися на емпіричні розподіли як спосіб розуміння нюансів маловідомих явищ. Дещо занадто просто вважати нормальний розподіл і відхиляти невдачу в загальній формі як мізерно, і зовсім сміливо звільняти інших людей як помилкові без більшого виправдання, ніж те, що вони не роблять '

Звичайно, велика частина такої поведінки мотивована припущеннями аналізів, які хочеться застосувати. Часто найцікавіші питання виходять далеко за межі опису чи класифікації розподілу змінних. Це також впливає на правильну відповідь для заданого сценарію; можуть бути причини (наприклад, потреби в ) припускати нормальний розподіл, коли він не підходить особливо добре (і не дуже погано підходить), оскільки та інакше методи також не є ідеальними. Тим не менш, ризик зробити це звично - це забути задати цікаві питання, які можна задати про розподіл однієї змінної.

Наприклад, розгляньте зв’язок між багатством і щастям: популярне питання, яке люди зазвичай хочуть задати. Можна вважати, що багатство слід за гаммою (Salem & Mount, 1974) або узагальненою бета-версією (Parker, 1999) , але чи справді безпечно вважати, що щастя зазвичай розподіляється? Дійсно, не слід взагалі вважати це лише для того, щоб відповісти на початкове запитання, але люди іноді це роблять, а потім ігнорують потенційно важливі питання, такі як упередженість відповідей та культурні відмінності. Наприклад, деякі культури, як правило, дають більш-менш екстремальні відповіді (див. Відповідь @ chl на Факторний аналіз анкетування, що складається з предметів Лікерта ), і норми змінюються щодо відкритого вираження позитивних і негативних емоцій (Такер, Озер, Любомирський та Бум, 2006 ) . Це може збільшити важливість відмінностей в таких емпіричних характеристиках розподілу, як косоокість і куртоз. Якби я порівнював зв’язок багатства з суб'єктивними оцінками щастя в Росії, Китаї та США, я, певно, хотів би оцінити відмінності в центральних тенденціях рейтингу щастя. Роблячи це, я б вагався вважати нормальні розподіли по кожному заради однобічної ANOVA (навіть якщо це може бути досить стійким до порушень) коли є підстави сподіватися на "товстіший" розподіл у Китаї, позитивно перекошене розповсюдження в Росії та негативно перекошене розповсюдження в США через різні норми культури та упередженість відповідей. Заради тесту на значимість (хоча я, мабуть, вважаю за краще повідомити розміри ефектів, чесно), я б скоріше скористався непараметричним методом, а задля того, щоб насправді зрозуміти суб'єктивне щастя в кожній сукупності окремо, скоріше описуйте розподіл емпірично, ніж намагайтеся класифікувати його як деякий простий теоретичний розподіл і ігнорувати чи промальовувати будь-яке невідповідність. Це марна інформація ІМО.

Список літератури
- Parker, SC (1999). Узагальнена бета-версія як модель розподілу заробітку. Економічні листи, 62 (2), 197–200.
- Salem, ABZ, & Mount, TD (1974). Зручна описова модель розподілу доходу: щільність гамми. Економетрика, 42 (6), 1115–1127.
- Такер, KL, Ozer, DJ, Любомирський, S., & Boehm, JK (2006). Тестування на інваріантність вимірювань на задоволення життєвою шкалою: Порівняння росіян та північноамериканців. Дослідження соціальних показників, 78 (2), 341–360. Отримано з http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .


Дякую за вашу відповідь, Нік. Я знайшов приклад особливо корисним.
HFBrowning

3

Довжина хвоста мишей, ймовірно, нормально розподілена

Я б сумнівався в цьому. Нормальні розподіли виникають внаслідок багатьох незалежних адитивних ефектів. Біологічні системи складаються з багатьох взаємодіючих циклів зворотного зв’язку (взаємозалежних мультиплікативних ефектів). Також часто існують деякі стани, стабільніші за інші (тобто аттрактори). Тож якесь довге хвостове чи багатомодальне розподіл, ймовірно, описувало б довжину хвоста. Насправді, звичайний розподіл, мабуть, є дуже поганим вибором за замовчуванням, щоб описати будь-яке біологічне, і його неправильне використання є причиною багатьох "чужих людей", про які повідомляється в цій літературі. Поширеність цього поширення в природі є міфом, а не лише в сенсі "ідеальних кіл насправді не існує". Однак не випливає, що середня та sd є марними як підсумкова статистика.

Тим більше, що я не можу легко визначити, коли може бути краще "довіряти даним" (як, наприклад, цей фанк-правильний перекос набору даних, який я маю, але n = 160, який дає дані, здається, недостатньо) та йти з емпіричним, або підходити до бета-версії, як мої колеги наполягають. Я підозрював, що він вибрав це лише тому, що це обмежено [0,1]. Все це здається дійсно тимчасовим. Сподіваюсь, це пояснює мій намір!

Встановлення емпіричних розподілів дає підказки на основний процес, що полегшує розвиток теоретичних розподілів. Потім теоретичний розподіл порівнюється з емпіричними розподілами для перевірки доказів теорії.

Якщо ваша мета - оцінка ймовірності певних результатів на основі наявних наявних доказів, і у вас немає підстав вибирати саме цей розподіл, я думаю, я не бачу, як зробити додаткові припущення можуть бути корисними. Натомість, здається, це заплутує справи.

Однак, якщо ви намагаєтесь описати або узагальнити дані, можливо, має сенс відповідати розподілу.


1
Хоча я можу прийняти лише одну відповідь, я хотів подякувати вам за вказівку на те, як насправді виникають нормальні розподіли. Це змусило мене більш ретельно замислитися над тим, що означає щось на базі теорії.
HFBrowning

3

У деяких випадках здається очевидним, що теорія може працювати найкраще (довжина хвоста мишей, ймовірно, нормально розподілена).

Довжина хвоста звичайно не розподіляється.

Нормальні розподіли мають ненульову ймовірність прийому негативних значень; довжини хвоста не мають.

Знаменита лінія Джорджа Бокса , " всі моделі помиляються, але деякі корисні ", робить це досить непоганим. Випадки, коли ми можемо обгрунтовано стверджувати нормальність (а не просто приблизну нормальність) насправді є дуже рідкісними, майже істотами легенди, міражі, періодично майже не заглядаючи з-за куточка ока.

У багатьох випадках, мабуть, немає теорії для опису набору даних, тож ви просто використовуєте щось, що відповідає тому, що у вас є досить добре, незалежно від того, що воно було розроблено для опису?

У тих випадках, коли кількість, яка вас цікавить, не особливо чутлива до вибору (якщо широкі можливості розподілу відповідають тому, що відомо), то так, ви можете просто використовувати те, що досить добре відповідає.

У випадках, коли є більша ступінь чутливості, "просто використовувати щось, що підходить", недостатньо саме по собі. Ми можемо використовувати якийсь підхід, який не передбачає особливих припущень (можливо, безкоштовні процедури розповсюдження, такі як перестановка, завантажувальна програма чи інші підходи до перекомпонування або надійні процедури). Крім того, ми могли б кількісно оцінити чутливість до припущення щодо розподілу, наприклад, через моделювання (дійсно, я думаю, що це взагалі гарна ідея).

мабуть, існує проблема, що, можливо, вам слід просто використовувати емпіричний розподіл, якщо ви насправді не маєте ідеї.

Я б не описував це як проблему - на основі висновку на емпіричних розподілах, безумовно, легітимний підхід, придатний для багатьох видів проблем (перестановка / рандомізація та завантажувальна програма - два приклади).

чи є у когось узгоджений спосіб підходити / думати про цю проблему?

В цілому, у багатьох випадках я схильний розглядати такі питання:

1) Що я розумію * про те, як поводяться засоби (або інші величини типу локації) для даних цієї форми?

* (чи то з теорії, чи досвіду такої форми даних, чи поради експертів, чи за потреби, із самих даних, хоча це має проблеми)

2) Що щодо розповсюдження (дисперсія, IQR тощо) - як він поводиться?

3) Що стосується інших функцій розповсюдження (межі, косості, дискретність тощо)

4) Що стосується залежності, неоднорідності популяцій, схильності до періодично дуже невідповідних значень тощо

Такий розгляд може орієнтуватися на вибір між звичайною моделлю, GLM, якоюсь іншою моделлю чи деяким надійним або безрозподільним підходом (наприклад, підключенням до завантаження чи перестановки / рандомізації, включаючи процедури, що базуються на ранговій основі)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.