Діапазон значень косості та куртозу для нормального розподілу


11

Хочу знати, що таке діапазон значень косості та куртозу, за якими дані вважаються нормально розподіленими.

Я прочитав багато аргументів і в основному отримав змішані відповіді. Деякі кажуть, що для корутозу та для куртозу прийнятний діапазон для нормального поширення. Деякі кажуть для є прийнятним діапазоном. Тут я знайшов детальну дискусію: Який прийнятний діапазон косості та куртозу для нормального розповсюдження даних щодо цього питання. Але я не зміг знайти жодного вирішального твердження.(-1,1)(-2,2)(-1,96,1,96)

Що є підставою для прийняття такого інтервалу? Це суб'єктивний вибір? Або є якесь математичне пояснення за цими інтервалами?


3
Що або хто визначає "прийнятним"?
Glen_b -Встановіть Моніку

Це гарне запитання. Я не маю однозначної відповіді на це.
Dark_Knight

Чи правильно я вважаю, що затягування вашого питання - це певний метод, що відповідає: "Перш ніж оцінити цю модель / виконати тест, перевірте косостість зразка та куртоз. Якщо вони обидва в межах певних заданих діапазонів, використовуйте деякий нормальна теоретична процедура, інакше використовуйте щось інше ". ...?
Glen_b -Встановити Моніку

Якщо так, то які процедури, з нормальними припущеннями, ви можете використовувати такий підхід? На яких змінних ви б це перевірили? Які альтернативні процедури ви використовуєте, якби ви зробили висновок, що вони не є "прийнятними" за яким-небудь критерієм?
Glen_b -Встановіть Моніку

Також - і це може бути важливо для контексту, особливо у випадках, коли пропонуються певні міркування щодо вибору певних меж - чи можете ви включити будь-які цитати, з яких такі діапазони походять, з яких ви можете отримати перевагу (особливо там, де пропоновані діапазони досить інший)? Одне, що було б корисно знати з такого контексту - для яких ситуацій вони використовують цей предмет?
Glen_b -Встановіть Моніку

Відповіді:


6

В оригінальній публікації пропущено пару основних моментів: (1) Жодні "дані" ніколи не можуть бути нормально розповсюджені. Дані обов'язково дискретні. Важливим питанням є: "це процес, який видав дані, як правило, розподілений процес?" Але (2) відповідь на друге питання завжди є "ні", незалежно від того, що дає вам будь-який статистичний тест чи інша оцінка на основі даних. Зазвичай розподілені процеси дають дані з нескінченною безперервністю, досконалою симетрією та точно заданими ймовірностями в межах стандартних діапазонів відхилень (наприклад, 68-95-99.7), жоден з яких ніколи точно не відповідає дійсності процесів, які дають підстави для даних, які ми можемо виміряти будь-якими вимірювальний прилад, який ми можемо використовувати люди.

Таким чином, ви ніколи не можете вважати дані звичайно розповсюдженими, і ви ніколи не можете вважати процес, який виробляв дані, точно нормально розподіленим процесом. Але, як зазначив Glen_b, це може не мати великого значення, залежно від того, що ви намагаєтеся зробити з даними.

Статистика скутості та куртозу може допомогти вам оцінити певні види відхилень від нормальності вашого процесу генерування даних. Однак вони є дуже змінною статистикою. Стандартні помилки, наведені вище, не є корисними, оскільки вони дійсні лише за нормальності, а це означає, що вони корисні лише як перевірка на нормальність, по суті, марна вправа. Було б краще скористатися завантажувальним інструментом, щоб знайти se, хоча великі зразки знадобляться для отримання точних даних.

Також куртоз дуже легко інтерпретувати, всупереч вищенаведеному посту. Це середнє (або очікуване значення) значень Z, кожне прийняте на четверту потужність. Великий | Z | Значення є переживаючими та в значній мірі сприяють куртозу. Малий | Z | Значення, де "пік" розподілу, дають значення Z ^ 4, які є крихітними і не сприяють суттєво куртозу. У своїй статті https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ я довів, що куртоз дуже добре оцінюється середнім значенням Z ^ 4 * I (| Z |> 1). Отже, куртоз вимірює схильність процесу генерування даних для отримання інших людей.


Просто, щоб зрозуміти, що саме ви маєте на увазі під «нормально розподіленим процесом»? Я розумію, що ви говорите про дискретність та безперервність випадкових величин, а як щодо припущення щодо нормального розподілу, яке можна зробити за допомогою теореми про центральний межа?
Dark_Knight

CLT тут не має значення - ми говоримо про розподіл, який виробляє окремі значення даних, а не середні. "Нормально розподілений процес" - це процес, який виробляє нормально розподілені випадкові змінні. Ідеальний нормальний генератор випадкових чисел на комп’ютері може бути прикладом (такого не існує, але вони досить гарні в програмному забезпеченні, яке ми використовуємо.)
Peter Westfall

Крім того, оскільки жоден процес, який виробляє дані, які ми можемо проаналізувати, не є нормальним процесом, також випливає, що розподіл середніх величин, вироблених будь-яким таким процесом, теж ніколи не є нормальним, незалежно від розміру вибірки. Але так, розподіли таких середніх величин можуть бути близькими до звичайних розподілів, як за CLT. Близькість таких розподілів до нормальної залежить від (i) розміру вибірки та (ii) ступеня ненормованості процесу генерації даних, який дає окремі значення даних.
Пітер Вестпад

4
Привіт Пітер - чи можна уникнути посилань на кшталт "вище", тому що порядок сортування зміниться. Те, що вище для вас, може бути не вище, щоб наступна людина подивилася. Якщо ви маєте на увазі публікацію Гунга чи мою публікацію (все ще редагую, оскільки я працюю над декількома її аспектами), ви можете просто визначити їх автором.
Glen_b -Встановіть Моніку

Ви, здається, у вищесказаному стверджуєте, що більш високий куртоз має на увазі більш високу схильність до вироблення перших людей. Якщо ви не визначите залишків тавтологічно (тобто, щоб заява була правдивою), це не твердження, що є істинним у загальному випадку. Наприклад, досить просто побудувати пари розподілів, коли той, у кого важчий хвіст, має нижчий куртоз.
Glen_b -Встановіть Моніку

5

Те, що ви, начебто, запитуєте тут, - це стандартна помилка для косості та куртозу зразка, взятого з нормальної сукупності. Зверніть увагу , що існує різні способи оцінки речі , як перекіс або жир tailedness (ексцес), які, очевидно , будуть впливати на те , що буде стандартна помилка. Найпоширеніші заходи, про які люди думають, більш технічно відомі як 3-й та 4-й стандартизовані моменти.

[1,)3куrтосiс-3[-2,)скешнесс2+124/N0

Для чого це варто, стандартними помилками є:

SЕ(скешнесс)=6N(N-1)(N-2)(N+1)(N+3)SЕ(куrтосiс)=2×SЕ(скешнесс)N2-1(N-3)(N+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

Хороший вступний огляд косості та куртозу можна знайти тут .


3

[У подальшому я припускаю, що ви пропонуєте щось на кшталт "перевірити нахил зразка та куртоз, якщо вони обидва в певних заздалегідь заданих діапазонах використовують якусь звичайну теоретичну процедуру, інакше використовуйте щось інше".]

У цьому є безліч аспектів, з яких у нас буде просто місце для кількох міркувань. Почну з перерахунку того, що, на мою думку, може бути важливим питанням, перш ніж перейти до використання такого критерію. Я спробую повернутися та написати трохи про кожен предмет пізніше:

Питання для розгляду

  1. Наскільки б погано ставились різні види ненормальності до того, що ми робимо?

  2. Наскільки важко підібрати ці відхилення, використовуючи діапазони косості зразка та куртозу?

    Одна річ, з якою я погоджуюсь у пропозиції - це дивиться на пару заходів, пов’язаних із розміром ефекту ( наскільки відхиленням від нормальності), а не значущістю. У цьому сенсі це наблизиться до розгляду чогось корисного, яке би проходив формальний тест на гіпотезу, який, як правило, відхилятиме навіть тривіальні відхилення при великих розмірах вибірки, пропонуючи при цьому помилкову втіху від неприйняття набагато більших (і більш вражаючих) відхилень при невеликі розміри зразків. (Тести гіпотези вирішують тут неправильне запитання.)

    Звичайно, при невеликих розмірах вибірки це все ще проблематично в тому сенсі, що заходи дуже "галасливі", тому ми все ще можемо збитися звідти (інтервал довіри допоможе нам зрозуміти, наскільки це насправді може бути).

    Це не говорить нам про те, як відхилення в косості чи куртозі стосується проблем із тим, що ми хочемо для нормальності, - і різні процедури можуть бути зовсім різними у своїй відповіді на ненормальність.

    Це не допоможе нам, якщо наше відхилення від нормальності є таким, до якого косості та куртозу будуть сліпі.

  3. Якщо ви використовуєте цю вибіркову статистику як основу для вирішення між двома процедурами, який вплив має на властивості отриманого висновку (наприклад, для тесту гіпотези, як виглядає ваш рівень значущості та потужність?)

  4. Існує нескінченна кількість розподілів, які мають точно таку ж косисть і куртоз, як і звичайний розподіл, але явно ненормальні. Вони навіть не повинні бути симетричними! Як існування таких речей впливає на використання таких процедур? Чи приречене підприємство з самого початку?

  5. Скільки варіацій у спотвореності та куртозу зразків ви могли побачити у зразках, отриманих від звичайних розподілів? (Яку частку нормальних зразків ми б у результаті викинули за яким-небудь правилом?)

    [Частково це питання пов'язане з частиною того, що Гунг обговорює у своїй відповіді.]

  6. Може замість цього щось краще зробити?

Нарешті, якщо після розгляду всіх цих питань ми вирішимо, що нам слід продовжувати та використовувати цей підхід, ми дійшли до міркувань, що випливають із вашого запитання:

  1. які хороші межі слід надати косості та куртозу для різних процедур? Про які змінні нам потрібно турбуватися, в яких процедурах?

    (наприклад, якщо ми робимо регресію, зауважте, що неправильно поводитися з будь-яким IV і навіть із сирим DV таким чином - жодне з них не приймається із звичайного нормального розподілу)


Я повернусь і додам кілька думок, але будь-які коментарі / запитання, які у вас є тим часом, можуть бути корисними.


0

І я також не розумію, для чого нам потрібен певний діапазон значень косості та куртозу для виконання будь-якого тесту на нормальність?
Dark_Knight
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.