Коли правильно написати «ми припустили нормальний розподіл» емпіричного вимірювання?


9

У викладанні прикладних дисциплін, таких як медицина, закладено, що вимірювання біомедичних величин у населенні дотримуються нормальної "кривої дзвону". Пошук в рядку Google "ми припустили нормальний розподіл" повертає результатів! Вони звучать як "з огляду на малу кількість крайніх точок даних, ми припустили нормальне розподіл температурних аномалій" у дослідженні зміни клімату; або "ми припустили нормальний розподіл дат вилуплення курчат" на, можливо, менш спірному документі про пінгвінів; або "ми припустили, що нормальний розподіл шоку зростання ВВП" ,23,900, ... та інші речі).

Нещодавно я опинився під питанням трактування даних підрахунку як зазвичай розподілених через їх суворо позитивний характер. Звичайно, дані підрахунку дискретні, що робить їх нормальність ще більш штучною. Але навіть залишаючи цю останню точку в стороні, чому постійні емпіричні заходи, такі як вага, зріст або концентрація глюкози, які вважаються прототипно "безперервними", слід вважати нормальними? Вони не можуть мати негативні реалізовані спостереження більше, ніж підрахунки!

Я розумію, що коли стандартне відхилення істотно нижче середнього, що вказує на кілька негативних значень ("перевірка діапазону 95%"), це може бути практичним припущенням, і гістограми частоти можуть підтримувати його, якщо не надто перекошені. Але питання не здавалося тривіальним, і швидкий пошук дав цікаві речі.

В Nature ми можемо знайти таке твердження в листі DF Heath : "Я хочу зазначити, що для статистичного аналізу певних типів даних припущення про те, що дані беруться від нормальної сукупності, зазвичай помилкове, і що альтернатива припущення про нормальний розподіл журналу є кращим. Ця альтернатива широко використовується статистиками, економістами і фізиками, але чомусь часто ігнорується вченими деяких інших дисциплін ".

Лімперт зазначає, що "нормально-нормальна модель може слугувати наближенням у тому сенсі, що багато вчених сприймають нормаль як справжнє наближення" , зазначаючи при цьому низьку потужність тестів на придатність придатності та складність у виборі правильний розподіл емпірично при роботі з дрібними зразками.

Тому питання полягає в тому, "Коли допустимо нормальне розподіл емпіричного вимірювання в прикладних науках без додаткових підтверджень?" І чому інші альтернативи, такі як log-normal, не мають, і, ймовірно, просто не збираються вживатись?


Відповідь залежатиме від того, якою річчю ви займаєтесь, та чутливості, яку вона має до потенційних відхилень від нормальності (тобто, якщо ви тестуєте рівність дисперсій за допомогою тесту F на співвідношення, вам краще мати розподіли, які є дуже близький до нормального ... але якщо ви будували t-інтервал для різниці в засобах, з великими зразками, вам, можливо, не потрібно мати їх зовсім наближеними до нормальності). ... і на вашу толерантність (або аудиторію) щодо того, який вплив він би мав на висновок, який ви робите.
Glen_b -Встановіть Моніку

Відповіді:


6

Я вважаю ваше запитання справді цікавим. Давайте врахуємо деякі речі:

  1. Сказати, що спостерігається змінна безперервна в реальному житті, завжди буде неправильно, тому що дуже важко вимірювати дійсно постійно.
  2. Тепер додайте властивість нормальної випадкової величини : Діапазон , симетричний розподіл (середнє = режим = медіана), функція щільності ймовірності має точки перегину при та .N(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. Якщо сказати, що випадкова величина після розподілу Log-Normal означає, що змінна слідує за нормальним розподілом.XY=log(X)

Зважаючи на це, сказати, що будь-яка спостерігається змінна слід нормальному або розподіл Log-Normal звучить як божевільно. На практиці це те, що ви вимірюєте відхилення спостережуваних частот від очікуваних частот, якщо ця змінна походить від нормальної (або будь-якої іншої дистрибуції) сукупності. Якщо ви можете сказати, що ці відхилення є випадковими, оскільки ви берете вибірку, то ви можете сказати щось на зразок недостатнього доказу, щоб відкинути нульову гіпотезу про те, що ця змінна походить від нормальної сукупності , яка перекладається на ми будемо працювати так, ніби ( якщо припустити, що) змінна слід нормальному розподілу .

Відповідаючи на ваше перше запитання, я не думаю, що хтось так сміливо може сказати, що змінна вважається звичайно розподіленою без додаткових доказів . Щоб сказати щось подібне, вам потрібно принаймні qq-графік, гістограма, тест на придатність або комбінацію таких.

Щоб відповісти на друге запитання, особливий інтерес до нормального розподілу полягає в тому, що багато класичних тестів базуються на припущенні про нормальність змінної, наприклад t-тест, або -тест для дисперсії. Отже, нормальність спрощує роботу, ось і все.χ2


Дякую за вашу відповідь, яка стосується багатьох ключових моментів. Однак я схильний вважати, що речі в «реальному світі» прикладних наук менш структуровані, і пряма дотична часто береться за припущення про нормальність.
Антоні Пареллада

1
Те, що я не згадував, - це інша частина історії, якщо нормальний розподіл: це граничне розподіл стандартизації суми iid випадкових змінних, як це зазначено в теоремі про центральну межу. Якщо ви можете сказати, що ваша змінна є сумою багатьох iid випадкових змінних, як, наприклад, у міркуванні руху броунів, то ви можете сказати, що це нормальна випадкова величина. Це єдина дійсна ярлика, яку я знаю. Я можу включити це у відповідь, якщо хочете.
тонлой
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.