У викладанні прикладних дисциплін, таких як медицина, закладено, що вимірювання біомедичних величин у населенні дотримуються нормальної "кривої дзвону". Пошук в рядку Google "ми припустили нормальний розподіл" повертає результатів! Вони звучать як "з огляду на малу кількість крайніх точок даних, ми припустили нормальне розподіл температурних аномалій" у дослідженні зміни клімату; або "ми припустили нормальний розподіл дат вилуплення курчат" на, можливо, менш спірному документі про пінгвінів; або "ми припустили, що нормальний розподіл шоку зростання ВВП" ,, ... та інші речі).
Нещодавно я опинився під питанням трактування даних підрахунку як зазвичай розподілених через їх суворо позитивний характер. Звичайно, дані підрахунку дискретні, що робить їх нормальність ще більш штучною. Але навіть залишаючи цю останню точку в стороні, чому постійні емпіричні заходи, такі як вага, зріст або концентрація глюкози, які вважаються прототипно "безперервними", слід вважати нормальними? Вони не можуть мати негативні реалізовані спостереження більше, ніж підрахунки!
Я розумію, що коли стандартне відхилення істотно нижче середнього, що вказує на кілька негативних значень ("перевірка діапазону 95%"), це може бути практичним припущенням, і гістограми частоти можуть підтримувати його, якщо не надто перекошені. Але питання не здавалося тривіальним, і швидкий пошук дав цікаві речі.
В Nature ми можемо знайти таке твердження в листі DF Heath : "Я хочу зазначити, що для статистичного аналізу певних типів даних припущення про те, що дані беруться від нормальної сукупності, зазвичай помилкове, і що альтернатива припущення про нормальний розподіл журналу є кращим. Ця альтернатива широко використовується статистиками, економістами і фізиками, але чомусь часто ігнорується вченими деяких інших дисциплін ".
Лімперт зазначає, що "нормально-нормальна модель може слугувати наближенням у тому сенсі, що багато вчених сприймають нормаль як справжнє наближення" , зазначаючи при цьому низьку потужність тестів на придатність придатності та складність у виборі правильний розподіл емпірично при роботі з дрібними зразками.
Тому питання полягає в тому, "Коли допустимо нормальне розподіл емпіричного вимірювання в прикладних науках без додаткових підтверджень?" І чому інші альтернативи, такі як log-normal, не мають, і, ймовірно, просто не збираються вживатись?