Чи є стандартне відхилення абсолютно неправильним? Як можна обчислити std за висотою, підрахунком тощо (додатні цифри)?


13

Скажімо, я обчислюю висоту (у см), і числа повинні бути більшими за нуль.

Ось зразок списку:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

У цьому прикладі, згідно з нормальним розподілом, 99,7% значень повинні бути в межах ± 3 рази більше середнього відхилення від середнього. Однак навіть удвічі стандартне відхилення стає негативним:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Однак мої цифри повинні бути позитивними. Тому вони повинні бути вище 0. Я можу ігнорувати від’ємні числа, але сумніваюся, що це правильний спосіб обчислити ймовірності, використовуючи стандартне відхилення.

Чи може хтось допомогти мені зрозуміти, чи використовую я це правильно? Або мені потрібно вибрати інший метод?

Ну якщо чесно, математика - це математика. Не має значення це нормальний розподіл чи ні. Якщо вона працює з непідписаними номерами, вона повинна працювати і з додатними числами! Я помиляюся?

EDIT1: Додана гістограма

Щоб бути більш зрозумілим, я додав гістограму моїх реальних даних введіть тут опис зображення

EDIT2: Деякі значення

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
Я думаю, що тут непорозуміння полягає в тому, що розподіл, який може мати лише позитивні числа, не є нормальним, тому правило 99,7%, яке ви заявляєте, не застосовується. По-друге, із (зразкової) формули стандартного відхилення видно, що жодна з вихідних значень не має жодної умови, щоб вона була позитивною - то чому це має бути неправильним? Можливо, він використовується неправильно, але статистика є переважно агностичною і не повинна застосовуватися бездумно.
Момо

8
Краса правила 68-95-99.7, @Momo, полягає в тому, що воно дійсно застосовується навіть до багатьох рівно нестандартних розподілів. У цьому випадку 50% чисел знаходяться в межах 1 sd від середнього, а 100% - в межах 2 sds від середнього. Зауважте, що 68% точно наближає 50% і 95% точно наближає 100% до відхилень, яких ми могли б очікувати від такого невеликого набору даних. Таким чином, цей приклад ілюструє правило, хоча це може бути трохи непереконливим через його невеликий розмір.
whuber

2
Я згоден. Дозвольте мені виправити це "таким чином правило, яке ви заявляєте 99,7%, не обов'язково застосовувати". Джерело плутанини тут, здається, застосовує це як щось більше, ніж правило, а не з точки зору вашого нюансу "приблизно в межах відхилень, яких ми очікували". Останній коментар ОП це лише показує.
Момо

4
Чи слід змінити назву на щось на кшталт "Як застосувати правило 68-95-99.7 до даних, які мають бути позитивними"? Я думаю, що це захоплює більше духу питання. (Це не проблема з тим, як обчислюється стандартне відхилення, про що підказує заголовок, а скоріше з тим, як його використовують для пошуку ймовірностей.)
Silverfish

4
Стандартне відхилення не є "неправильним". Що менш точне - це ставитися до звичайних речей, яких немає; пропорції поза заданою кількістю стандартних відхилень, що мають на увазі нормальність, не завжди будуть точними для інших розподілів. Для безперервних унімодальних розподілів, близьких до 2 стандартних відхилень, двосторонні інтервали часто бувають досить розумними, але в подальшому хвостові ймовірності можуть мати дуже високі відносні помилки.
Glen_b -Встановити Моніку

Відповіді:


23

Якщо ваші номери можуть бути лише позитивними, то моделювання їх як звичайного розподілу може бути небажаним, залежно від випадку використання, оскільки нормальний розподіл підтримується на всіх реальних числах.

Можливо, ви б хотіли моделювати висоту як експоненціальний розподіл, чи, можливо, усічений нормальний розподіл?

РЕДАКТУВАТИ: Після перегляду ваших даних, схоже, це може бути добре вміщено експоненціальний розподіл! Ви можете оцінити параметр скориставшись, наприклад, максимально можливим підходом.λ


10
Перше речення в цілому невірно: Багато суто позитивних величин часто можна наблизити звичайним розподілом. Якщо маса ймовірності нижче 0 дуже мала, це не має значення для всіх практичних цілей. У цьому конкретному випадку це, безумовно, правильно.
COOLSerdash

13
-1 Ця відповідь відображає широко розповсюджене (і незгубне) хибне уявлення про те, що таке статистична модель і що вона насправді означає моделювати дані з нормальним розподілом. Дійсно, якби ми вірили тому, що йдеться у цій публікації, тоді "безумовно некоректно" коли-небудь наближати біноміальний розподіл до нормального розподілу - але це історично оригінальне та, ймовірно, найпоширеніше використання нормального розподілу! (Редагувати: Я видалив знищення, оскільки ви змінили оригінальну претензію на більш правильну та корисну.)
whuber

4
Це залежить від того, що ви маєте на увазі під «вищим». Частина вартості моделі полягає в тому, що потрібно для її реалізації. Якщо ви приймаєте усічену звичайну модель, ви, ймовірно, зобов'язуєтесь до численних нестандартних чисельних обчислень замість швидких, простих та, можливо, дуже точних аналітичних розрахунків. Інша мета моделі полягає в тому, щоб дати зрозуміння : "Думає," якщо природа поводиться хоча б приблизно так, як ці припущення, то які наслідки можна зробити з цих припущень? " Часто робити такі умовиводи простіше простого наближення.
whuber

2
@whuber: після "красиво точно" я подумки додав "неправильно". Вибачте. Звичайно, також "але корисно" за коробку.
Стефан Коласа

2
Хоча дані складаються з не цілих значень?
Кевін Лі

19

"Який правильний спосіб застосувати 68-95-99,7 до мого випадку?"

Варто розраховувати, що це правило застосовуватиметься лише в тому випадку, якщо ви (1) дивитесь на всю (нескінченну) сукупність чи теоретичний розподіл ймовірностей , і (2) розподіл є абсолютно нормальним .

Якщо ви берете випадкову вибірку розміром 20, навіть із справді нормального розподілу, ви не завжди знайдете, що 95% даних (19 з 20 предметів) лежить в межах 2 (або 1,960) стандартних відхилень середнього значення. Насправді не гарантується, що 19 з 20 предметів будуть лежати в межах 1.960 стандартних відхилень середньої сукупності, а також, що 19 з 20 предметів лежать в межах 1.960 вибіркових стандартних відхилень середнього зразка.

Якщо взяти зразок даних із розподілу, який не зовсім нормально поширюється, то знову не слід очікувати, що правило 68-95-99.7 точно застосовуватиметься. Але це може бути досить близьким до цього, особливо якщо розмір вибірки великий (правило "охоплення 99,7%" може не мати особливого значення при розмірі вибірки нижче 1000) і розподіл досить близький до нормальності. Теоретично багато даних, таких як зріст або вага, не могли надходити з точно нормального розподілу, або це означало б невелику, але ненульову ймовірність того, що вони будуть негативними. Тим не менш, для даних з приблизно симетричним і одномодальним розподілом, де середні значення частіше зустрічаються і надзвичайно високі або низькі значення ймовірності випадають, модель нормального розподілу може бути адекватною для практичних цілей.Якщо моя гістограма показує дзвіноподібну криву, чи можу я сказати, що мої дані зазвичай розподіляються?

Якщо ви хочете теоретично зв'язувати межі, що застосовуються до будь-якого розподілу, то перегляньте нерівність Чебишева , де зазначено, що щонайбільше значень може лежати більше, ніж k1/k2kстандартні відхилення від середнього значення. Це гарантує, що щонайменше 75% даних лежать у межах двох стандартних відхилень середнього значення, а 89% - у межах трьох стандартних відхилень. Але ці цифри - лише теоретично гарантований мінімум. Для багатьох грубо дзвоноподібних розподілів ви побачите, що показник покриття двома стандартними відхиленнями набагато ближче до 95%, ніж до 75%, і тому "велике правило" від звичайного розподілу все ще корисне. З іншого боку, якщо ваші дані надходять із розповсюдження, яке ніде не знаходиться у формі дзвоника, можливо, ви зможете знайти альтернативну модель, яка краще описує дані та має інше правило покриття.

(Одне з приємних правил 68-95-99.7 - це те, що воно стосується будь-якого нормального розподілу, незалежно від його параметрів для середнього або стандартного відхилення. Так само, нерівність Чебишева застосовується незалежно від параметрів чи навіть розподілу, хоча тільки дає нижчі межі для покриття. Але якщо застосувати, наприклад, усічену нормальну модель або косий нормальну модель, то не існує простого еквівалента покриття "68-95-99.7", оскільки це залежатиме від параметрів розподілу .)


7

Чи може хтось допомогти мені зрозуміти, чи використовую я це правильно?

О, це легко. Ні, ви його неправильно використовуєте.

По-перше, ви використовуєте досить невеликий набір даних. Спроба вилучити статистичну поведінку з цього набору розмірів, безумовно, можлива, але довірчі межі (ах) досить великі. Для невеликих наборів даних відхилення від очікуваних розподілів є номінальними для курсу, і чим менший набір, тим більша проблема. Пам’ятайте, «Закон середніх не лише допускає найвиразніші збіги, він вимагає їх».

Гірше, що набір даних, який ви використовуєте, просто не схожий на звичайний розподіл. Подумайте над цим - із середнім значенням .498 у вас є два зразки нижче 0,1, а ще три - у .748 або вище. Тоді у вас є група з 3 балів між .17 та .22. Дивлячись на цей конкретний набір даних і стверджувати, що це повинен бути нормальний розподіл, - це досить хороший випадок прокрустського аргументу. Це схоже на криву дзвона до вас? Цілком можливо, що більша кількість населення дотримується нормального або модифікованого нормального розподілу, і більший розмір вибірки вирішить цю проблему, але я б не ставку на це, особливо не знаючи більше про кількість населення.

Я кажу модифікований нормальний, оскільки, як зазначав Кевін Лі, технічно нормальний розподіл включає всі реальні числа. Як було також зазначено у коментарях до його відповіді, це не заважає застосовувати такий розподіл у обмеженому діапазоні та отримувати корисні результати. Як говориться, "Усі моделі помиляються. Деякі корисні".

Але цей конкретний набір даних просто не схожий на те, щоб зробити звичайний розподіл (навіть у обмеженому діапазоні) дуже гарною ідеєю. Якби ваші 10 точок даних виглядали як .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (середнє значення 0.500), чи вважаєте ви нормальним розподіл?


Я використав випадкові дані, щоб пояснити мої потреби та проблеми
Дон Кодер

1
@DonCoder Випадкові дані (якщо ви не налаштовували їх якимось чином) підходили б до рівномірного розподілу, а не до нормального розподілу.
barrycarter

5
Випадкові дані потрібно генерувати з деякого розповсюдження. Якого ви вибрали?
Пітер Флом - Відновити Моніку

Я додав гістограму моїх реальних даних
Дон Кодер,

2

В одному з коментарів ви говорите, що ви використовували "випадкові дані", але не кажете, з якого розподілу. Якщо ви говорите про висоту людей, вони приблизно нормально розподіляються, але ваші дані віддалено не підходять для людських висот - ваші - це частки в см!

І ваші дані віддалено не нормальні. Я здогадуюсь, ви використовували рівномірний розподіл з межами 0 і 1. І ви створили дуже маленький зразок. Спробуємо з більшим зразком:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

Отже, жодна з даних не перевищує середнього значення, ніж 2 сд, оскільки це виходить за межі даних. А порція в межах 1 сд буде приблизно 0,56.


1

Часто, коли у вас є обмеження, що всі ваші зразки повинні бути позитивними, варто переглянути логарифм ваших даних, щоб побачити, чи може ваш розподіл наблизитись до логістичного розподілу.


1

Розрахунок стандартного відхилення відносно середнього. Чи можете ви застосувати стандартне відхилення до чисел, які завжди позитивні? Абсолютно. Якщо ви повинні додати 1000 до кожного зі значень у наборі зразків, ви побачили б те саме значення стандартного відхилення, але ви забезпечили б собі більше місця для дихання вище нуля.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Однак додавати до даних довільну константу є поверхневим. Використовуючи стандартне відхилення для набору даних настільки мало, вам потрібно буде очікувати нерафінованого виводу. Розгляньте стандартне відхилення як об'єктив камери з автоматичним фокусуванням: чим більше часу (даних) ви надаєте, тим чіткіше буде зображення. Якщо після відстеження 1000000 точок даних ваше середнє та стандартне відхилення залишаються такими ж, як і у 10, я можу почати сумніватися у валідності вашого експерименту.


1

Ваша гістограма показує, що нормальний розподіл не є належним чином. Ви можете спробувати лонормальне або щось інше, яке є асиметричним і суворо позитивним


1

Головне - багато хто з нас ледачий *, а нормальний розподіл зручно працювати з нами лінивими людьми. Провести обчислення за допомогою нормального розподілу досить просто, і це має приємну математичну основу. Як така, це "модель" для роботи над даними. Ця модель часто спрацьовує напрочуд добре, а іноді лягає на обличчя.

Цілком очевидно, що ваші зразки не вказують на нормальний розподіл даних. Тож вирішення вашої дилеми - вибрати іншу "модель" та працювати з іншим розподілом. Розподіл Вейбула може бути в напрямку, є й інші.

  • ледачись не дуже знайомитися з даними та вибирати кращі моделі, коли це необхідно.

0

В основному ви використовуєте дані Ratio на відміну від даних інтервалу. Географи постійно переживають це під час обчислення середньоквадратичного періоду для щорічної кількості опадів у конкретному місці (100+ років зразкових точок у приміщенні LA Civic Center) або снігопаду (100+ років зразків снігопаду на озері Великий ведмідь). Ми можемо мати лише позитивні цифри, це саме так.


0

У метеорології розподіл швидкості вітру насправді виглядає так. За визначенням швидкості вітру також є негативними.

Тож у вашому випадку я б точно переглянув дистрибуцію Weibull .


0

Ви починаєте з "відповідно до звичайного розподілу", коли ваші дані явно не нормально поширюються, це перша проблема. Ви говорите: "Не має значення, нормальний розподіл це чи ні". Що абсолютна дурниця. Ви не можете використовувати заяви про нормально розподілені дані, якщо ваші дані не нормально поширюються.

І ви неправильно трактуєте твердження. "99,7% повинні бути в межах трьох стандартних відхилень". І 99,7% ваших даних дійсно знаходилися в межах трьох стандартних відхилень. Ще краще, він був 100% в межах двох стандартних відхилень. Тож твердження вірно .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.