Що таке стандартне відхилення, як воно обчислюється та яке його використання в статистиці?
Що таке стандартне відхилення, як воно обчислюється та яке його використання в статистиці?
Відповіді:
Стандартне відхилення - це число, яке представляє "розповсюдження" або "дисперсія" набору даних. Існують і інші заходи щодо розповсюдження, такі як ареал і зміна.
Ось деякі приклади наборів даних та їх стандартні відхилення:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Наведені вище набори даних мають однакове середнє значення.
Відхилення означає "відстань від середнього".
"Стандарт" тут означає "стандартизований", тобто середнє відхилення і середнє значення знаходяться в одних і тих же одиницях, на відміну від дисперсії.
Наприклад, якщо середня висота становить 2 метри , стандартне відхилення може становити 0,3 метра , тоді як дисперсія буде 0,09 метра у квадраті .
Зручно знати, що принаймні 75% точок даних завжди лежать в межах 2 стандартних відхилень від середнього значення (або близько 95%, якщо розподіл є нормальним).
Наприклад, якщо середнє значення - 100, а стандартне відхилення - 15, то принаймні 75% значень становлять від 70 до 130.
Якщо розподіл буває нормальним, то 95% значень становлять від 70 до 130.
Взагалі, показники тесту на IQ зазвичай розподіляються і мають середнє значення 100. У когось "дуже яскравий" два стандартних відхилення вище середнього, тобто показник IQ тесту 130.
Цитата з Вікіпедії .
Він показує, яка кількість варіацій є від "середнього" (середнього або очікуваного / бюджетного значення). Низьке стандартне відхилення вказує на те, що точки даних, як правило, дуже близькі до середнього, тоді як високе стандартне відхилення вказує на те, що дані розкидані за великим діапазоном значень.
Описуючи змінну, ми, як правило, підсумовуємо її за допомогою двох заходів: міри центру та міри поширення. Загальні заходи центру включають середню, медіану та режим. Загальна міра поширення включає дисперсію та міжквартильний діапазон.
Дисперсія (представлена грецькою малою сигмою, піднятою до потужності два) зазвичай використовується, коли повідомляється про середнє значення. Дисперсія - середнє квадратичне відхилення змінної. Відхилення обчислюють шляхом віднімання середнього значення з кожного спостереження. Це в квадраті, тому що в іншому випадку сума дорівнюватиме нулю, а квадратик усуває цю проблему, зберігаючи відносний розмір відхилень. Проблема використання варіації як міри розкиду полягає в тому, що вона знаходиться в одиницях квадрата. Наприклад, якщо наша змінна інтерес була висота, виміряна в дюймах, то про дисперсію повідомлялося б у квадратних дюймах, що мало сенсу. Стандартне відхилення (представлене грецькою малою сигмою) є квадратним коренем дисперсії і повертає міру поширення до вихідних одиниць.
Використовуючи стандартне відхилення, треба бути обережним до людей, які не мають сили, оскільки вони будуть перекошувати стандартне відхилення (і середнє значення), оскільки вони не є стійкими мірами поширення. Простий приклад проілюструє цю властивість. Середній показник моїх страхітливих крикетів - 13, 14, 16, 23, 26, 28, 33, 39 і 61 - це 28,11. Якщо ми вважаємо, що 61 є стороннім, і видалили його, середнє значення було б 24.
Ось як я відповів би на це запитання за допомогою діаграми.
Скажімо, ми зважуємо 30 котів і обчислюємо середню вагу. Тоді ми виробляємо графік розкидання з вагою на осі y та ідентичністю кішки на осі х. Середню вагу можна намалювати у вигляді горизонтальної лінії. Потім ми можемо малювати вертикальні лінії, які з'єднують кожну точку даних із середньою лінією - це відхилення кожної точки даних від середньої, і ми називаємо їх залишками. Тепер ці залишки можуть бути корисними, оскільки вони можуть сказати нам щось про поширення даних: якщо є багато великих залишків, то кішки сильно відрізняються за масою. І навпаки, якщо залишки в основному невеликі, то коти досить тісно скупчені навколо середньої ваги. Тож якби ми могли мати якийсь показник, який підказує нам середнє значеннядовжина залишків у цьому наборі даних, це було б зручним способом позначення того, яке поширення є в даних. Стандартне відхилення - це, фактично, довжина середнього залишку.
Я б продовжував це робити, даючи обчислення для sd, пояснюючи, чому ми квадратний, а потім квадратний корінь (мені подобається коротке і солодке пояснення Вайбхава). Тоді я б зазначив про проблеми людей, що вижили, як це робить Грех в своєму останньому абзаці.
Якщо потрібна інформація - це розподіл даних про середнє значення, стандартне відхилення стане в нагоді.
Сума різниці кожного значення від середнього дорівнює нулю (очевидно, оскільки значення рівномірно розподілені навколо середнього), отже, ми розбиваємо кожну різницю, щоб перетворити негативні значення в позитивні, підсумувати їх у сукупності та взяти їх квадратний корінь. Потім це значення ділиться на кількість зразків (або, чисельність сукупності). Це дає стандартне відхилення.
Стандартне відхилення - це квадратний корінь другого центрального моменту розподілу. Центральним моментом є очікувана різниця від очікуваної величини розподілу. Перший центральний момент зазвичай дорівнює 0, тому другий центральний момент ми визначаємо як очікуване значення квадратної відстані випадкової величини від її очікуваного значення.
Щоб поставити його на шкалу, що більше відповідає оригінальним спостереженням, ми беремо квадратний корінь того другого центрального моменту і називаємо його стандартним відхиленням.
Стандартне відхилення - це властивість населення. Він вимірює, яка середня «дисперсія» є для цього населення. Чи всі обмазки скупчені навколо середини, або вони широко розкинуті?
Для оцінки стандартного відхилення популяції ми часто обчислюємо стандартне відхилення "вибірки" від цієї сукупності. Для цього ви берете спостереження з цієї сукупності, обчислюєте середнє значення цих спостережень, а потім обчислюєте квадратний корінь середнього квадратичного відхилення від цього "середнього зразка".
Щоб отримати неупереджений оцінювач дисперсії, ви насправді не обчислюєте середнє квадратичне відхилення від середнього зразка, а натомість ділите на (N-1), де N - кількість спостережень у вашій вибірці. Зауважимо, що це "вибіркове стандартне відхилення" не є неупередженим оцінкою стандартного відхилення, але квадрат "стандартного відхилення вибірки" є неупередженим оцінником дисперсії сукупності.
Найкращий спосіб я зрозумів стандартне відхилення - це думати про перукар! (Вам потрібно зібрати дані від перукаря і запобігти швидкості стрижки волосся, щоб цей приклад працював.)
В середньому 30 хвилин на перукарні волосся потрібно стригти волосся.
Припустимо, ви зробите розрахунок (більшість програмних пакетів зробить це за вас), і ви виявите, що стандартне відхилення становить 5 хвилин. Це означає:
Звідки я це знаю? Потрібно подивитися на нормальну криву, де 68% падає в межах 1 стандартного відхилення і 96% падає в межах 2 стандартних відхилень середнього значення (в цьому випадку 30 хвилин). Отже, ви додаєте або віднімаєте стандартне відхилення від середнього.
Якщо бажана консистенція, як у цьому випадку, то чим менше стандартне відхилення, тим краще. У цьому випадку перукар проводить максимум близько 40 хвилин з будь-яким клієнтом. Вам потрібно швидко стригти волосся, щоб запустити успішний салон!