Мій розподіл нормальний; Тест Колмогорова-Смірнова не погоджується


15

У мене проблема з нормальністю деяких даних, які я маю: я зробив тест Колмогорова, який говорить, що це не нормально для p = .0000, я не розумію: хиткість мого розподілу = -. 497, і куртоз = -0,024

Ось сюжет мого розповсюдження, який виглядає дуже нормально ...

(У мене є три бали, і кожен з цих балів не є нормальним зі значним р-значенням для тесту Колмогорова ... я дійсно не розумію)

введіть тут опис зображення

введіть тут опис зображення


11
Звідки ти знаєш, що це нормально? Мені це не виглядає нормально. Це виглядає лівокосим.
mark999

1
Чому ви тестуєте на нормальність?
Джек Едлі

Відповіді:


39
  1. У вас немає підстав стверджувати, що ваші дані є нормальними. Навіть якщо обидві перекоси та зайвий куртоз були рівно 0, це не означає, що ваші дані є нормальними. Хоча косоокість і куртоз далеко від очікуваних значень вказують на ненормальність, зворотне не дотримується. Існують ненормальні розподіли, які мають таку ж косисть і куртоз, як і нормальні. Приклад обговорюється тут , щільність якого наводиться нижче:
    dgam 2.3

    Як бачите, це виразно бімодальний. У цьому випадку розподіл є симетричним, тому до тих пір, поки існують достатні моменти, типова міра перекосу буде дорівнює 0 (справді всі звичайні заходи будуть). Що стосується куртозу, то вклад у четверті моменти з області, близької до середньої, буде, як правило, робити куртоз меншим, але хвіст є відносно важким, що, як правило, збільшує його. Якщо ви виберете правильно, куртоз виходить з тим же значенням, що і для звичайного.

  2. Ваша косоокість зразка насправді становить близько -0,5, що говорить про м'яку косий зліва. Ваша гістограма та графік QQ вказують на одне і те ж - м'яко-лівий розподіл. (Таке м'яке перекос навряд чи буде проблемою для більшості звичайних нормально-теоретичних процедур.)

  3. Ви дивитесь на кілька різних показників ненормативності, з якими не слід очікувати, що вони погоджуються апріорі , оскільки вони враховують різні аспекти розподілу; з невеликими, м'яко ненормальними зразками, вони часто не згодні.


Тепер для головного питання: * Чому ви тестуєте на нормальність? *

[відредаговано у відповіді на коментарі:]

Я не дуже впевнений, я хоч мав би перед тим, як робити ANOVA

Тут має бути зроблено ряд питань.

i. Нормальність - це припущення щодо ANOVA, якщо ви використовуєте його для висновку (наприклад, тестування гіпотез), але воно не особливо чутливе до ненормативності у більших зразках - легка ненормальність має незначні наслідки, оскільки розміри вибірки збільшують розподіл стають більш ненормальними, і тест може бути лише незначним чином.

ii. Ви, здається, перевіряєте нормальність відповіді (DV). Сам (безумовний) розподіл DV не вважається нормальним в ANOVA. Ви перевіряєте залишки, щоб оцінити обґрунтованість припущення про умовний розподіл (тобто його термін помилки в моделі, яка вважається нормальною) - тобто ви, здається, не дивитесь на правильну річ. Дійсно, оскільки перевірка робиться на залишки, ви робите це після встановлення моделі, а не раніше.

iii. Офіційне тестування може бути поряд з марним. Питання, яке тут цікавить, полягає в тому, «наскільки погано впливає ступінь ненормативності на мій висновок?», На що насправді тест гіпотези не відповідає. Зі збільшенням обсягу вибірки тест стає все більш здатним виявити тривіальні відмінності від нормальності, тоді як вплив на рівень значущості в ANOVA стає все меншим і меншим. Тобто, якщо розмір вибірки досить великий, тест на нормальність здебільшого говорить про те, що ви маєте великий розмір вибірки, що означає, що вам може не до чого турбуватися. Принаймні, з QQ сюжетом ви маєте візуальну оцінку того, наскільки це ненормально.

iv. при розумних розмірах вибірки інші припущення - як рівність дисперсійності та незалежності - як правило, мають значення набагато більше, ніж легка ненормальність. Спершу хвилюйтесь про інші припущення ... але знову ж таки, формальне тестування не відповідає правильному питанню

v. вибір, чи робити ви ANOVA чи якийсь інший тест на основі результату тесту гіпотези, має властивості гірші, ніж просто вирішити діяти так, як ніби припущення не відповідає. (Існує безліч методів, які підходять для одностороннього ANOVA-подібного аналізу даних, які не вважаються нормальними, і ви можете їх використовувати, коли не думаєте, що у вас є підстави вважати нормальність. Деякі мають дуже хороший потенціал як правило, і з гідним програмним забезпеченням немає підстав уникати їх.)

[Я вважаю, що я мав посилання на цю останню точку, але зараз не можу її знайти; якщо я знайду це, я спробую повернутися і вкласти його]


Я читаю вашу гістограму як приблизно min 12 режим 48 max 60, так що min до режиму 36, режим до max 12. Не слід читати занадто багато таких деталей, але вони повністю відповідають лівій косості.
Нік Кокс

10

Тест Колмогорова-Смірнова має неабияку потужність, коли розміри зразків великі, тому можна легко відкинути нульову гіпотезу про те, що ваші дані не відрізняються від нормальності. Іншими словами, тест іноді підказує, що розподіл не є нормальним у великих зразках, навіть якщо це нормально для більшості намірів.

Подумайте про це як про тест. Якщо у вас є дві сукупності, які відрізняються за висотою лише на тисячну частку міліметра, неймовірно великі зразки статистично підтвердять, що вони різні, навіть якщо різниця є безглуздою.

Можливо, ви можете розраховувати на інші методи, щоб визначити нормальність своїх даних. Сюжети, які ви використовуєте, - це два хороших приклади, а також значення перекосу / куртозу.

Ця інша тема виглядає особливо пов’язаною: чи тестування на нормальність "по суті марне"?


Ну добре, все здається, розмір моєї вибірки досить великий (n = 660), чи є якісь інші тести, які менш упереджені величезним розміром вибірки?
Бу

Проведіть пошук на цьому сайті, і ви зможете знайти відповідні відповіді. stats.stackexchange.com/questions/12261/testing-normalit stats.stackexchange.com/questions/2492/…
Behacad

13
Тести не упереджуються величезними розмірами вибірки.
Пітер Флом - Відновіть Моніку

10

Тест Колмогорова-Смірнова не є розподілом, коли нульова гіпотеза повністю уточнена - якщо середні значення та відхилення оцінюються за даними, обов'язково використовуйте варіант Лілліфорса при тестуванні нормальності (якщо потрібно). Це не для отримання інших відповідей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.