"Який правильний спосіб застосувати 68-95-99,7 до мого випадку?"
Варто розраховувати, що це правило застосовуватиметься лише в тому випадку, якщо ви (1) дивитесь на всю (нескінченну) сукупність чи теоретичний розподіл ймовірностей , і (2) розподіл є абсолютно нормальним .
Якщо ви берете випадкову вибірку розміром 20, навіть із справді нормального розподілу, ви не завжди знайдете, що 95% даних (19 з 20 предметів) лежить в межах 2 (або 1,960) стандартних відхилень середнього значення. Насправді не гарантується, що 19 з 20 предметів будуть лежати в межах 1.960 стандартних відхилень середньої сукупності, а також, що 19 з 20 предметів лежать в межах 1.960 вибіркових стандартних відхилень середнього зразка.
Якщо взяти зразок даних із розподілу, який не зовсім нормально поширюється, то знову не слід очікувати, що правило 68-95-99.7 точно застосовуватиметься. Але це може бути досить близьким до цього, особливо якщо розмір вибірки великий (правило "охоплення 99,7%" може не мати особливого значення при розмірі вибірки нижче 1000) і розподіл досить близький до нормальності. Теоретично багато даних, таких як зріст або вага, не могли надходити з точно нормального розподілу, або це означало б невелику, але ненульову ймовірність того, що вони будуть негативними. Тим не менш, для даних з приблизно симетричним і одномодальним розподілом, де середні значення частіше зустрічаються і надзвичайно високі або низькі значення ймовірності випадають, модель нормального розподілу може бути адекватною для практичних цілей.Якщо моя гістограма показує дзвіноподібну криву, чи можу я сказати, що мої дані зазвичай розподіляються?
Якщо ви хочете теоретично зв'язувати межі, що застосовуються до будь-якого розподілу, то перегляньте нерівність Чебишева , де зазначено, що щонайбільше значень може лежати більше, ніж k1/k2kстандартні відхилення від середнього значення. Це гарантує, що щонайменше 75% даних лежать у межах двох стандартних відхилень середнього значення, а 89% - у межах трьох стандартних відхилень. Але ці цифри - лише теоретично гарантований мінімум. Для багатьох грубо дзвоноподібних розподілів ви побачите, що показник покриття двома стандартними відхиленнями набагато ближче до 95%, ніж до 75%, і тому "велике правило" від звичайного розподілу все ще корисне. З іншого боку, якщо ваші дані надходять із розповсюдження, яке ніде не знаходиться у формі дзвоника, можливо, ви зможете знайти альтернативну модель, яка краще описує дані та має інше правило покриття.
(Одне з приємних правил 68-95-99.7 - це те, що воно стосується будь-якого нормального розподілу, незалежно від його параметрів для середнього або стандартного відхилення. Так само, нерівність Чебишева застосовується незалежно від параметрів чи навіть розподілу, хоча тільки дає нижчі межі для покриття. Але якщо застосувати, наприклад, усічену нормальну модель або косий нормальну модель, то не існує простого еквівалента покриття "68-95-99.7", оскільки це залежатиме від параметрів розподілу .)